Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BMMR: Un conjunto de datos de razonamiento multidisciplinario, multimodal, bilingüe y a gran escala

Created by
  • Haebom

Autor

Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Philip Torr, Xuanjing Huang

Describir

BMMR es un conjunto de datos de inferencia multilingüe, multimodal y multidisciplinario a gran escala que contiene 110.000 preguntas de nivel universitario para el desarrollo y la evaluación de modelos multimodales a gran escala (LMM). Abarca 300 temas definidos por la UNESCO y consta de preguntas en diversos formatos, como opciones múltiples, para completar espacios en blanco y preguntas de respuesta corta, así como datos de diversas fuentes, como libros, exámenes y cuestionarios. Se selecciona y filtra mediante un marco escalable basado en la intervención humana, y cada instancia está asociada a una ruta de inferencia de alta calidad. El conjunto de datos se divide en BMMR-Eval, que consta de 20.458 instancias de alta calidad para evaluar exhaustivamente el conocimiento y la capacidad de inferencia de los LMM, y BMMR-Train, que consta de 88.991 instancias para apoyar la investigación y el desarrollo. También proponemos un verificador multidisciplinario basado en procesos (BMMR-Verifier) ​​para una evaluación precisa y detallada de la ruta de inferencia. Los resultados experimentales de 24 modelos muestran que incluso los modelos más avanzados tienen un margen de mejora significativo en BMMR-Eval. Los modelos de inferencia superan a los LMM solo en temas específicos, y los modelos de código abierto tienen un rendimiento inferior al de los modelos propietarios. Sin embargo, el ajuste con BMMR-Train reduce la diferencia de rendimiento. Estudios más profundos, incluyendo el análisis de cadenas de inferencia con BMMR-Verifier, revelan los desafíos actuales que enfrentan los LMM en la inferencia multidisciplinaria. El conjunto de datos se publicará próximamente.

Takeaways, Limitations

Takeaways:
Proporcionar un nuevo conjunto de datos de referencia BMMR para evaluar la capacidad de inferencia multidisciplinaria de modelos multimodales a gran escala (LMM)
Presentación de los límites de rendimiento y las direcciones de mejora de los LMM de última generación
Sesgo del modelo en la inferencia multidisciplinaria y diferencias de rendimiento entre modelos de código abierto y propietarios
Confirmación de la eficacia del ajuste fino mediante BMMR-Train
Proporciona una comprensión más profunda de las tareas de inferencia multidisciplinarias de LMM.
Limitations:
A pesar del tamaño del conjunto de datos, los modelos de última generación aún no funcionan perfectamente en la inferencia multidisciplinaria.
Problemas de sesgo persistente en modelos de inferencia para temas específicos
Existe una brecha de rendimiento entre los modelos de código abierto y los propietarios (pero esto se puede resolver parcialmente con un ajuste fino).
👍