Este artículo presenta una técnica de enrutamiento de redes cuánticas basada en el marco del Proceso de Decisión de Markov Parcialmente Observable (POMDP). Combina la planificación de estados de creencias con redes neuronales de grafos (GNN) para abordar los desafíos de observabilidad parcial, decoherencia y escalabilidad en sistemas cuánticos dinámicos. La dinámica compleja de las redes cuánticas, incluyendo la descomposición del entrelazamiento y el ruido de canal variable en el tiempo, se codifica en un espacio de características de baja dimensión, lo que permite actualizaciones eficientes de creencias y un aprendizaje escalable de políticas. Los elementos clave incluyen una arquitectura híbrida GNN-POMDP que aprende políticas de enrutamiento mediante el procesamiento de la representación gráfica de los enlaces entrelazados, y un mecanismo de adaptación al ruido que fusiona las actualizaciones de creencias de POMDP con las salidas de GNN para una toma de decisiones robusta. Se proporciona un análisis teórico para garantizar la convergencia de creencias, la mejora de las políticas y la robustez al ruido. Los experimentos en redes cuánticas simuladas con hasta 100 nodos demuestran que la técnica propuesta mejora significativamente la fidelidad de enrutamiento y la propagación del entrelazamiento en comparación con las líneas de base de última generación, particularmente en condiciones de alta decoherencia y no estacionarias.