Cet article aborde le problème des modèles linguistiques multimodaux à grande échelle (MLLM) qui peinent à distinguer les signaux pertinents et non pertinents pour la tâche, ce qui entraîne des erreurs dans des tâches telles que les questions-réponses visuelles (QV). Nous définissons cette limitation comme le « problème de compétence intermodale » et nous nous concentrons sur « l'interférence modale », un phénomène dans lequel des informations bruitées provenant de modalités non pertinentes dégradent les performances dans des tâches reposant sur une seule modalité, comme la classification d'images ou les questions-réponses textuelles pures. Dans cet article, nous concevons une expérience de diagnostic causal basée sur les perturbations pour mesurer quantitativement l'interférence modale et proposons un nouveau cadre pour affiner les MLLM à l'aide de stratégies d'augmentation de données et de régularisation de la cohérence basées sur les perturbations, incluant la perturbation heuristique et la perturbation antagoniste par descente de gradient projective (PGD). Nous validons l'efficacité de la méthode proposée par des expériences sur divers jeux de données de référence (tâches centrées sur l'image, centrées sur le texte et QV) et plusieurs familles de modèles.