Cet article propose un cadre d'apprentissage basé sur un modèle mondial afin de répondre aux défis d'inefficacité des données et de prise de décision politique à court terme des méthodes d'apprentissage par renforcement (RL) existantes dans les réseaux sans fil. Plus précisément, nous nous concentrons sur la minimisation du vieillissement de l'information sensible à la complétion des paquets (CAoI) dans les réseaux de communication V2X mmWave, caractérisés par une mobilité élevée, des blocages de signaux fréquents et des temps de cohérence extrêmement courts. Le cadre proposé apprend un modèle dynamique de l'environnement V2X mmWave et l'utilise pour prédire les trajectoires afin d'apprendre à planifier les liens. Au lieu d'apprendre des interactions réelles, le cadre apprend des politiques à long terme à partir de trajectoires imaginaires différentiables, prédisant des données sans fil variables dans le temps et optimisant la planification des liens dans les réseaux sans fil et V2X réels. Des expériences approfondies sont menées à l'aide d'un simulateur réaliste basé sur Sionna, et le modèle mondial proposé démontre des améliorations du CAoI de 26 % et 16 % par rapport aux méthodes MBRL et MFRL existantes, respectivement.