Cet article présente une technique de routage de réseau quantique basée sur le cadre du processus de décision de Markov partiellement observable (POMDP). Elle combine la planification des états de croyance avec les réseaux de neurones graphes (GNN) pour relever les défis d'observabilité partielle, de décohérence et d'évolutivité dans les systèmes quantiques dynamiques. La dynamique complexe des réseaux quantiques, y compris la décroissance de l'intrication et le bruit de canal variable dans le temps, est codée dans un espace de caractéristiques de faible dimension, permettant des mises à jour de croyances efficaces et un apprentissage de politiques évolutif. Les éléments clés comprennent une architecture hybride GNN-POMDP qui apprend les politiques de routage en traitant la représentation structurée en graphe des liens intriqués, et un mécanisme d'adaptation au bruit qui fusionne les mises à jour de croyances POMDP avec les sorties GNN pour une prise de décision robuste. Une analyse théorique est fournie pour garantir la convergence des croyances, l'amélioration des politiques et la robustesse au bruit. Des expériences sur des réseaux quantiques simulés comportant jusqu'à 100 nœuds démontrent que la technique proposée améliore considérablement la fidélité du routage et la propagation de l'intrication par rapport aux lignes de base de pointe, en particulier dans des conditions de décohérence élevée et non stationnaires.