Cet article présente le premier modèle électroencéphalogramme-langage (ELM) utilisant des rapports cliniques et 15 000 ensembles de données d'électroencéphalogramme (EEG). Étant donné que les recherches antérieures sur la modélisation multimodale du langage n'ont pas été appliquées à l'analyse phénotypique clinique des données cérébrales fonctionnelles, nous combinons l'alignement multimodal par découpage de séries chronologiques et segmentation de texte, et proposons une augmentation basée sur l'apprentissage multi-instances pour atténuer les incohérences entre les segments EEG ou texte non pertinents. Les résultats expérimentaux démontrent que le modèle multimodal proposé surpasse significativement les modèles EEG seuls dans quatre essais cliniques, permettant pour la première fois une classification et une récupération sans échantillonnage des signaux neuronaux et des rapports. Il s'agit d'une avancée significative démontrant l'applicabilité clinique de l'ELM.