Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Diagnóstico y mitigación de la interferencia de modalidad en modelos lingüísticos multimodales de gran tamaño

Created by
  • Haebom

Autor

Rui Cai, Bangzheng Li, Xiaofei Wen, Muhao Chen, Zhe Zhao

Describir

Este artículo aborda la dificultad de los modelos lingüísticos multimodales a gran escala (MLLM) para distinguir entre señales relevantes e irrelevantes para la tarea, lo que genera errores en tareas como la respuesta visual a preguntas (VQA). Definimos esta limitación como el "problema de competencia intermodal" y nos centramos en la "interferencia modal", un fenómeno en el que la información ruidosa procedente de modalidades irrelevantes degrada el rendimiento en tareas que dependen de una sola modalidad, como la clasificación de imágenes o la respuesta a preguntas con texto puro. En este artículo, diseñamos un experimento de diagnóstico causal basado en perturbaciones para medir cuantitativamente la interferencia modal y proponemos un nuevo marco para el ajuste fino de los MLLM mediante estrategias de aumento de datos y regularización de consistencia basadas en perturbaciones, incluyendo la perturbación heurística y la perturbación adversarial mediante descenso de gradiente proyectivo (PGD). Validamos la eficacia del método propuesto mediante experimentos con diversos conjuntos de datos de referencia (tareas centradas en imágenes, centradas en texto y VQA) y múltiples familias de modelos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para definir y cuantificar claramente el problema de competencia intermodal de los MLLM, especialmente el problema de interferencia modal.
Proponemos un marco de ajuste eficaz para aliviar el problema de interferencia modal.
Demostramos experimentalmente que el método propuesto mejora el rendimiento en varios conjuntos de datos y modelos de referencia.
Demostramos que es posible mejorar simultáneamente la capacidad de inferencia unimodal y el rendimiento en tareas multimodales.
Limitations:
La eficacia del método propuesto puede estar limitada a conjuntos de datos y modelos de referencia específicos.
Se necesitan más experimentos en tareas multimodales más diversas y complejas.
Los métodos de entrenamiento adversarial como el PGD pueden ser computacionalmente costosos.
Se necesita más investigación sobre la generalidad y las limitaciones de las estrategias de perturbación heurística.
👍