Pour remédier à la faible précision et à la lenteur des mises à jour en temps réel des modèles de prévision de la qualité de l'air existants, cet article propose Ada-TransGNN, une méthode de prédiction de données spatio-temporelles basée sur Transformer qui intègre la sémantique spatiale globale et le comportement temporel. Ada-TransGNN construit un ensemble de blocs spatio-temporels efficace et collaboratif, incluant un mécanisme d'attention multi-têtes et un réseau convolutif de graphes, pour extraire des caractéristiques de dépendance spatio-temporelle en évolution dynamique à partir de données complexes de surveillance de la qualité de l'air. Compte tenu des interactions entre différents points de surveillance, nous proposons un module d'apprentissage adaptatif de structure de graphe qui apprend une structure de graphe optimale en combinant les caractéristiques de dépendance spatio-temporelle de manière pilotée par les données. Cela permet une capture plus précise des relations spatiales entre les points de surveillance. De plus, nous concevons un module d'apprentissage de tâches auxiliaires qui améliore la capacité de décodage des relations temporelles en intégrant des informations contextuelles spatiales dans la représentation optimale de la structure de graphe, améliorant ainsi la précision des résultats de prédiction. Des évaluations complètes sur des ensembles de données de référence et un nouvel ensemble de données (Mete-air) démontrent que le modèle proposé surpasse les modèles de prédiction de pointe existants dans les prévisions à court et à long terme.