Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MoCHA: Razonamiento avanzado de visión y lenguaje con conector MoE y atención grupal jerárquica

Created by
  • Haebom

Autor

Yuqi Pang, Bowen Yang, Yun Cao, Rong Fan, Xiaoyu Li, Chen He

Describir

MoCHA es un novedoso marco visual propuesto para abordar los altos costos de entrenamiento e inferencia de los modelos de lenguaje a gran escala (VLLM) de visión y la dificultad de extraer detalles visuales. Integra cuatro pilares de visión: CLIP, SigLIP, DINOv2 y ConvNeXt, para extraer características visuales complementarias. El módulo conector de mezcla de expertos dispersos (MoEC) selecciona dinámicamente expertos adaptados a diferentes dimensiones visuales. Además, utiliza la Atención de Grupo Jerárquico (HGA) y estrategias de compuerta adaptativa para mitigar la información visual redundante o infrautilizada codificada por el módulo MoEC. MoCHA se entrenó con los principales LLM, como Phi2-2.7B y Vicuna-7B, y su rendimiento se evaluó en diversos puntos de referencia. MoCHA superó a los modelos de ponderación abierta más avanzados en varias tareas. En concreto, en comparación con CuMo (Mistral-7B), MoCHA (Phi2-2.7B) demostró una mejora del 3,25 % en la reducción de alucinaciones en la escala de Procesamiento Predictivo de Imágenes (POPE) y una mejora de 153 puntos en el seguimiento de instrucciones visuales en la escala de Evaluación Multimedia (MME). Estudios adicionales de ablación confirmaron la eficacia y la robustez de los MoEC y la HGA propuestos.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco para abordar eficazmente el problema del alto costo de VLLM.
Mejora del rendimiento mediante la extracción de características visuales complementarias.
Aumentar la eficiencia de la utilización de la información visual mediante módulos MoEC y HGA.
Reducción de las alucinaciones y mejora del rendimiento al seguir instrucciones visuales.
Lograr el rendimiento SOTA en varios puntos de referencia.
Limitations:
Se necesitan más investigaciones para explorar la generalización del marco propuesto.
Necesidad de evaluar las dependencias de LLM específicos y la compatibilidad con otros LLM.
Se necesitan evaluaciones de referencia más diversas y completas.
Falta de una explicación detallada del ajuste de parámetros de los módulos MoEC y HGA.
👍