En este artículo, proponemos un novedoso marco de intervención causal visual-lingüística, ADPC (Predicción de la Enfermedad de Alzheimer con Intervención Causal Intermodal), para abordar el sesgo de selección y los problemas de confusión causados por las relaciones complejas entre variables en datos multimodales, con el objetivo de diagnosticar precozmente el deterioro cognitivo leve (DCL) y retrasar la progresión a la enfermedad de Alzheimer (EA). El ADPC utiliza un modelo de lenguaje a gran escala (LLM) para mantener la salida de texto estructurada incluso en conjuntos de datos incompletos o desequilibrados, y clasifica cognitivamente normal (CN), DCL y EA mediante imágenes de MRI, fMRI y datos de texto generados por el LLM. La intervención causal elimina la influencia de variables de confusión (p. ej., artefactos de neuroimagen, biomarcadores relacionados con la edad) para obtener resultados confiables. Los resultados experimentales muestran que el ADPC alcanza un rendimiento de vanguardia (SOTA) en la mayoría de las métricas de evaluación, demostrando un excelente rendimiento en la distinción de casos de CN/DCL/EA. Este estudio demuestra el potencial de integrar el aprendizaje multimodal y la inferencia causal para el diagnóstico de enfermedades neurológicas.