Este artículo aborda la dificultad de los modelos lingüísticos multimodales a gran escala (MLLM) para distinguir entre señales relevantes e irrelevantes para la tarea, lo que genera errores en tareas como la respuesta visual a preguntas (VQA). Definimos esta limitación como el "problema de competencia intermodal" y nos centramos en la "interferencia modal", un fenómeno en el que la información ruidosa procedente de modalidades irrelevantes degrada el rendimiento en tareas que dependen de una sola modalidad, como la clasificación de imágenes o la respuesta a preguntas con texto puro. En este artículo, diseñamos un experimento de diagnóstico causal basado en perturbaciones para medir cuantitativamente la interferencia modal y proponemos un nuevo marco para el ajuste fino de los MLLM mediante estrategias de aumento de datos y regularización de consistencia basadas en perturbaciones, incluyendo la perturbación heurística y la perturbación adversarial mediante descenso de gradiente proyectivo (PGD). Validamos la eficacia del método propuesto mediante experimentos con diversos conjuntos de datos de referencia (tareas centradas en imágenes, centradas en texto y VQA) y múltiples familias de modelos.