Este artículo presenta una investigación que utiliza la computación cuántica para resolver el problema de recogida y entrega a gran escala con capacidad limitada (CPDPTW). En concreto, proponemos un método novedoso que integra circuitos cuánticos parametrizados (CQP) en un marco de aprendizaje por refuerzo (AR) para minimizar los tiempos de viaje en servicios realistas de reparto de última milla. Diseñamos un circuito cuántico codificado específico para el problema que incorpora entrelazamiento y capas variacionales, y demostramos la superioridad del método propuesto en términos de escala y complejidad de entrenamiento mediante experimentos comparativos con PPO y QSVT. Esto presenta una solución eficiente para un problema a gran escala difícil de abordar con los enfoques clásicos existentes.