Cet article explore la vulnérabilité aux erreurs des modèles linguistiques multimodaux à grande échelle (MLLM), et plus particulièrement le phénomène d'incertitude de réponse à la désinformation. À l'aide de neuf ensembles de données standard et de douze MLLM open source de pointe, les chercheurs ont constaté qu'un seul indice trompeur entraînait un taux d'inversion de 65 % des réponses précédemment correctes. Pour analyser quantitativement ce phénomène, nous avons proposé un pipeline d'évaluation en deux étapes (validation de la réponse initiale et mesure du taux d'erreur après injection de l'instruction trompeuse) et créé un référentiel d'incertitude multimodale (MUB) en collectant des exemples présentant des taux d'erreur élevés. Des évaluations approfondies portant sur douze modèles open source et cinq modèles fermés ont révélé un taux d'erreur moyen supérieur à 86 %, avec 67,19 % pour les indices explicites et 80,67 % pour les indices implicites. Enfin, nous avons affiné les MLLM open source sur un ensemble de données à directions mixtes de 2 000 échantillons, réduisant considérablement les taux d'erreur (6,97 % pour les signaux explicites et 32,77 % pour les signaux implicites).