Este artículo propone un marco de aprendizaje basado en modelos globales para abordar la ineficiencia de datos y los desafíos a corto plazo en la toma de decisiones políticas de los métodos actuales basados en aprendizaje por refuerzo (RL) en redes inalámbricas. Específicamente, nos centramos en minimizar el envejecimiento de la información (CAoI) con capacidad de completar paquetes en redes de comunicación mmWave V2X, que se caracterizan por alta movilidad, bloqueo frecuente de señales y tiempos de coherencia extremadamente cortos. El marco propuesto aprende un modelo dinámico del entorno mmWave V2X y lo utiliza para predecir trayectorias y aprender a realizar la programación de enlaces. En lugar de aprender interacciones reales, el marco aprende políticas a largo plazo a partir de trayectorias imaginarias diferenciables, prediciendo datos inalámbricos variables en el tiempo y optimizando la programación de enlaces en redes inalámbricas y V2X reales. Se realizan experimentos exhaustivos utilizando un simulador realista basado en Sionna, y el modelo global propuesto demuestra mejoras en el CAoI del 26% y el 16% con respecto a los métodos MBRL y MFRL existentes, respectivamente.