Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Impulso a la generación de gráficos a código en MLLM mediante un refinamiento guiado por preferencias duales
Created by
Haebom
Autor
Zhihan Zhang, Yixin Cao, Lizi Liao
Describir
Este artículo se centra en la tarea de convertir imágenes de gráficos en scripts de gráficos ejecutables, concretamente en la generación de gráficos a código. Esta tarea presenta limitaciones inherentes, lo que requiere un modelo de lenguaje multimodal a gran escala (MLLM) para realizar un análisis visual detallado, una síntesis de código precisa y una inferencia intermodal robusta. Múltiples implementaciones de código válidas pueden generar el mismo gráfico visual, y la evaluación debe considerar tanto la corrección del código como la fidelidad visual en múltiples dimensiones. Esto dificulta el aprendizaje de asignaciones precisas y generalizables mediante el ajuste fino supervisado estándar. Para abordar este desafío, este artículo propone un marco de mejora de la guía de preferencias duales que combina un mecanismo de recompensa de modalidad dual basado en retroalimentación con el aprendizaje iterativo de preferencias. Nuestro enfoque genera eficientemente pares de preferencias de alta calidad y con reconocimiento de aspectos mediante la introducción de una estrategia estructurada de generación de variación y un modelo de recompensa visual, lo que aumenta la escalabilidad de la recopilación de preferencias y orienta la supervisión a objetivos. Estas preferencias se utilizan posteriormente en un entorno de aprendizaje de refuerzo fuera de línea para optimizar el modelo y lograr una fidelidad multidimensional mejorada. Los resultados experimentales demuestran que el marco propuesto mejora significativamente el rendimiento del MLLM de código abierto y propósito general, generando código de gráficos de alta calidad que rivaliza con los modelos profesionales centrados en gráficos e incluso con algunos sistemas propietarios. El código y el conjunto de datos están disponibles públicamente en https://github.com/Zhihan72/Chart2Code .
Mejoramos significativamente el rendimiento de generación de gráficos a código de un MLLM de código abierto y propósito general a través de nuestro marco de mejora de guía de preferencia dual.
◦
Presentamos una estrategia para generar de manera eficiente pares de preferencias conscientes del aspecto y de alta calidad, aumentando así la escalabilidad de la recopilación de preferencias.
◦
Presentamos una configuración de aprendizaje de refuerzo fuera de línea que optimiza los modelos para mejorar la fidelidad multidimensional.
◦
La calidad del código generado ha mejorado hasta el punto de poder competir con modelos profesionales centrados en gráficos y algunos sistemas propietarios.
◦
Hemos puesto nuestro código y conjuntos de datos a disposición del público para mejorar la reproducibilidad de nuestra investigación.
•
Limitations:
◦
El rendimiento del marco propuesto puede depender del MLLM y del conjunto de datos utilizados.
◦
El rendimiento de generalización para gráficos complejos o con formas especiales requiere más estudios.
◦
Puede ser necesario desarrollar y mejorar métricas de evaluación que consideren tanto la fidelidad visual como la corrección del código.
◦
Es posible que sea necesario ampliar el soporte para diferentes tipos de bibliotecas de gráficos.