Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MMLU-Reason: Evaluación comparativa de la comprensión y el razonamiento lingüístico multimodal en múltiples tareas

Created by
  • Haebom

Autor

Guiyao Tie, Xueyang Zhou, Tianhe Gu, Ruihang Zhang, Chaoran Hu, Sizhe Zhang, Mengqu Sun, Yan Zhang, Pan Zhou, Lichao Sun

Describir

En este artículo, presentamos MMLU-Reason, un nuevo referente para evaluar la capacidad de inferencia de modelos lingüísticos multimodales a gran escala (MLLM), especialmente MLLM-T con trazas de pensamiento intermedias. MMLU-Reason consta de 1083 preguntas desafiantes que abarcan seis tipos diferentes de inferencia y un proceso modular de evaluación de trazas de inferencia (RTEP) que evalúa la calidad de la inferencia. RTEP evalúa la calidad de la inferencia mediante métricas como la relevancia, la consistencia y las anotaciones de errores estructurales, además de la precisión. Los resultados experimentales muestran que MLLM-T generalmente supera a los modelos que operan sin trazas de pensamiento, pero incluso modelos de vanguardia como Claude-3.7-Sonnet y Gemini-2.5 Pro presentan patologías de inferencia como la inconsistencia y el pensamiento excesivo. Por lo tanto, MMLU-Reason demuestra una brecha constante entre la precisión y la calidad de la inferencia, y proporciona un proceso de evaluación viable para el desarrollo futuro de modelos.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia, MMLU-Reason, para evaluar las capacidades de razonamiento multimodal.
Desarrollo de una tubería de evaluación de trazas de inferencia modular (RTEP) para evaluar la calidad de inferencia de MLLMs-T.
Muestra claramente la brecha entre la precisión y la calidad de la inferencia.
Proporcionar un criterio de evaluación viable para el desarrollo futuro de sistemas de inferencia multimodal.
Limitations:
MMLU-Reason consta de preguntas difíciles, por lo que puede resultar difícil aplicarlo a todos los MLLM.
Los criterios de evaluación de RTEP pueden ser subjetivos.
El punto de referencia actual puede ser de tamaño relativamente pequeño.
La posibilidad de que exista un sesgo hacia ciertos tipos de razonamiento.
👍