Cet article présente des recherches utilisant l'informatique quantique pour résoudre le problème de ramassage et de livraison à grande échelle avec contrainte de capacité (CPDPTW). Plus précisément, nous proposons une nouvelle méthode intégrant des circuits quantiques paramétrés (CQP) dans un cadre d'apprentissage par renforcement (RL) afin de minimiser les temps de trajet dans des services de livraison réalistes du dernier kilomètre. Nous concevons un circuit quantique codé spécifique au problème, intégrant des couches d'intrication et variationnelles, et démontrons la supériorité de la méthode proposée en termes d'échelle et de complexité d'apprentissage par des expériences comparatives avec PPO et QSVT. Cela constitue une solution efficace à un problème à grande échelle difficile à traiter avec les approches classiques existantes.