[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sobre el preentrenamiento de modelos de lenguaje multimodal personalizados para la comprensión de gráficos

Created by
  • Haebom

Autor

Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal

Describir

Basándonos en estudios recientes que adaptan modelos lingüísticos multimodales a gran escala (MLLM) a tareas de dominio específicas, en particular la comprensión de gráficos científicos, este artículo se centra en abordar la brecha entre los datos de preentrenamiento de pies de imagen naturales y los datos de control de calidad de imágenes de gráficos digitales, en particular la capacidad del modelo para extraer valores numéricos básicos de los gráficos. Para ello, presentamos tres hallazgos clave. En primer lugar, la incorporación de valores de datos sin procesar en el preentrenamiento de la alineación mejora significativamente la comprensión de los datos de los gráficos. En segundo lugar, la sustitución aleatoria de imágenes por representaciones textuales durante el ajuste fino integral transfiere las capacidades de inferencia lingüística a las habilidades de interpretación de gráficos. En tercer lugar, permitir que el modelo extraiga primero datos básicos de los gráficos y luego responda preguntas durante el ajuste fino mejora aún más la precisión. Con base en estos hallazgos, presentamos un MLLM personalizado, CHOPINLLM, que interpreta eficazmente varios tipos de gráficos (incluidos los gráficos sin anotaciones) y mantiene una sólida capacidad de inferencia. Además, construimos un nuevo punto de referencia para evaluar la comprensibilidad de los MLLM en diversos tipos de gráficos y niveles de comprensión. Los resultados experimentales muestran que CHOPINLLM tiene un buen desempeño tanto en gráficos anotados como no anotados.

Takeaways, Limitations

Takeaways:
Presentar estrategias efectivas de preentrenamiento y ajuste para mejorar el rendimiento de MLLM para la comprensión de gráficos (integración de valores de datos sin procesar, conversión de representaciones de imágenes a texto y respuesta a preguntas después de la extracción de datos)
Desarrollo del modelo CHOPINLLM para comprender eficazmente varios tipos de gráficos (con y sin anotaciones)
Un nuevo punto de referencia para evaluar la capacidad de comprensión de gráficos de MLLM
Limitations:
Se necesitan más investigaciones para determinar la generalización de la metodología presentada.
Necesidad de probar tipos de gráficos más diversos y complejos
Se necesita un análisis adicional sobre las limitaciones de rendimiento y las direcciones de mejora de CHOPINLLM.
👍