Para abordar la baja precisión y las lentas actualizaciones en tiempo real de los modelos existentes de predicción de la calidad del aire, este documento propone Ada-TransGNN, un método de predicción de datos espaciotemporales basado en Transformer que integra semántica espacial global y comportamiento temporal. Ada-TransGNN construye un conjunto de bloques espaciotemporales eficiente y colaborativo, que incluye un mecanismo de atención multi-cabeza y una red convolucional de grafos, para extraer características de dependencia espaciotemporal que cambian dinámicamente de datos complejos de monitoreo de la calidad del aire. Considerando las interacciones entre varios puntos de monitoreo, proponemos un módulo de aprendizaje de estructura de grafos adaptativo que aprende una estructura de grafos óptima combinando características de dependencia espaciotemporal de una manera impulsada por datos. Esto permite una captura más precisa de las relaciones espaciales entre los puntos de monitoreo. Además, diseñamos un módulo de aprendizaje de tareas auxiliares que mejora la capacidad de decodificación de las relaciones temporales al incorporar información contextual espacial en la representación óptima de la estructura de grafos, mejorando efectivamente la precisión de los resultados de la predicción. Evaluaciones exhaustivas de conjuntos de datos de referencia y un nuevo conjunto de datos (Mete-air) demuestran que el modelo propuesto supera a los modelos de predicción de última generación existentes tanto en predicciones a corto como a largo plazo.