Une approche classique de résolution du problème de tournées de véhicules avec fenêtres de temps (VRPTW) est celle basée sur l'algorithme de génération de colonnes. Elle consiste à résoudre la relaxation linéaire d'un problème maitre puis à utiliser un schéma de Branch-and-Price (BP) pour déterminer une solution entière. Une méthode heuristique alternative au BP consiste à énumérer un ensemble de nouvelles colonnes pour enrichir le problème maitre puis de le résoudre en imposant l'intégrité des variables. L'efficacité de cette approche dépend fortement de la qualité et du nombre de colonnes énumérées. Cet article propose d'introduire l'apprentissage par renforcement profond afin d'aider à modéliser des politiques de décision adaptatives capables d'identifier et de prioriser la sélection d'un sous-ensemble de colonnes prometteuses issue de l'énumération. Les premières expérimentations montrent que la méthode proposée permet d'obtenir un gap (écart entre majorant et minorant) presque deux fois meilleur que celui obtenu en appliquant une stratégie aléatoire pour limiter le nombre de colonnes sélectionnées. Parmi les instances où le gap diminue, 2/3 atteignent la solution optimale.

