ROADEF 2026 - Sciencesconf.org

sciencesconf.org:roadef2026:685091

Apprentissage par renforcement pour la génération de colonnes appliquée au problème de tournées de véhicules avec fenêtres de temps

Sabrina Akniou 1, 2, @ , Zsuzsanna Roka 2, @ , Nicolas Jozefowiez 2, @ , Pierre Laroche 2, @ , Anass Nagih 1, @

1 : Laboratoire de Conception, Optimisation et Modélisation des Systèmes

Université de Lorraine : EA7306, Université de Lorraine

2 : Laboratoire Lorrain de Recherche en Informatique et ses Applications

Institut National de Recherche en Informatique et en Automatique, CentraleSupélec, Université de Lorraine, Centre National de la Recherche Scientifique

Une approche classique de résolution du problème de tournées de véhicules avec fenêtres de temps (VRPTW) est celle basée sur l'algorithme de génération de colonnes. Elle consiste à résoudre la relaxation linéaire d'un problème maitre puis à utiliser un schéma de Branch-and-Price (BP) pour déterminer une solution entière. Une méthode heuristique alternative au BP consiste à énumérer un ensemble de nouvelles colonnes pour enrichir le problème maitre puis de le résoudre en imposant l'intégrité des variables. L'efficacité de cette approche dépend fortement de la qualité et du nombre de colonnes énumérées. Cet article propose d'introduire l'apprentissage par renforcement profond afin d'aider à modéliser des politiques de décision adaptatives capables d'identifier et de prioriser la sélection d'un sous-ensemble de colonnes prometteuses issue de l'énumération. Les premières expérimentations montrent que la méthode proposée permet d'obtenir un gap (écart entre majorant et minorant) presque deux fois meilleur que celui obtenu en appliquant une stratégie aléatoire pour limiter le nombre de colonnes sélectionnées. Parmi les instances où le gap diminue, 2/3 atteignent la solution optimale.

Type :	:	Résumé
Export du papier vers HAL	:	Non
Thématiques	:	[GT DAAO] Données, Apprentissage Automatique et Optimisation
Mots-Clés	:	Problème de tournées de véhicules avec fenêtres de temps ; génération de colonnes ; apprentissage par renforcement.
Licence du fichier	:	Paternité

Vie privée | Accessibilité