Este artículo presenta el primer modelo de electroencefalograma a lenguaje (ELM) que utiliza informes clínicos y 15.000 conjuntos de datos de electroencefalogramas (EEG). Dado que la investigación previa sobre modelado multimodal del lenguaje no se ha aplicado al análisis fenotípico clínico de datos cerebrales funcionales, combinamos la alineación multimodal mediante el recorte de series temporales y la segmentación de texto, y proponemos un aumento basado en el aprendizaje multiinstancia para mitigar las inconsistencias entre segmentos irrelevantes de EEG o texto. Los resultados experimentales demuestran que el modelo multimodal propuesto supera significativamente a los modelos basados únicamente en EEG en cuatro ensayos clínicos, lo que permite la clasificación de disparo cero y la recuperación de señales neuronales e informes por primera vez. Esto representa un avance significativo que demuestra la aplicabilidad clínica del ELM.