ROADEF 2026 - Sciencesconf.org

sciencesconf.org:roadef2026:687663

Apprentissage par renforcement attentionnel pour le QAP

Julien Canitrot-Paradis 1, @ , Murat Afsar 2, @ , Jean-Yves Pierron 3, @ , Chokri Mraidha 3, @

1 : Universit´e Paris-Saclay, CEA, List, Palaiseau, France

CEA/ DRT/LIST, sacla

2 : UTT

Université de Technologie de Troyes, Université de Technologie de Troyes

3 : CEA

CEA/ DRT/LIST

Le problème d'affectation quadratique (QAP), NP-difficile, modélise de nombreuses situa-
tions industrielles. Étant données deux matrices n × n de flux F et de distances D, et une
bijection σ entre installations et emplacements, le coût est
C(σ) =n∑i,k=1Fik Dσ(i)σ(k), (1)
et l'objectif est de trouver σ minimisant C [1]. Les méthodes exactes ne parviennent pas
à trouver de solutions optimales au-delà de quelques dizaines d'installations et les meilleures
performances sur QAPLIB [6] reposent sur des recherches tabou robustes [2]. Les approches
d'optimisation combinatoire neuronale ont montré qu'on peut apprendre, par apprentissage
par renforcement, des politiques neuronales compétitives pour des problèmes de tournée ou de
routage [3], et des modèles RL dédiés au QAP ont récemment été proposés [4, 5].
Notre objectif est de concevoir un agent RL spécifiquement adapté au QAP qui exploite
de manière explicite la structure de la fonction de coût, au-delà des architectures NCO gé-
nériques ou des modèles RL précédents. Nous proposons (i) une formulation séquentielle du
QAP en processus de décision markovien où les récompenses reposent sur des coûts margi-
naux exacts, (ii) une politique modulaire combinant un encodeur edge-aware sur (F, D) et une
composante informée par ces coûts marginaux, et (iii) un protocole d'entraînement Proximal
Policy Optimization (PPO) adapté à un espace d'actions dense de taille O(n2).

Type :	:	Résumé
Thématiques	:	[GT DAAO] Données, Apprentissage Automatique et Optimisation
Mots-Clés	:	QAP ; apprentissage par renforcement ; politiques attentionnelles.
Licence du fichier	:	Paternité

Vie privée | Accessibilité