Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El razonamiento basado únicamente en texto libera evaluadores multimodales de cero disparos

Created by
  • Haebom

Autor

Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun

Describir

Este artículo aborda las señales de recompensa generadas por humanos, que desempeñan un papel crucial en la alineación de los modelos generativos con las preferencias humanas. Los enfoques LLM como juez, que utilizan LLM como evaluadores, reducen significativamente el coste de la anotación manual, pero suelen requerir una gran cantidad de datos de entrenamiento específicos de cada modalidad y carecen de generalización en diversas tareas multimodales. En este artículo, proponemos Flex-Judge, un modelo de juicio multimodal basado en inferencia que se generaliza robustamente en múltiples modalidades y formatos de evaluación utilizando datos mínimos de inferencia de texto. La idea central es que las explicaciones de inferencia de texto estructurado incorporan inherentemente patrones de decisión generalizables, lo que permite una transferencia eficaz a juicios multimodales como imágenes y vídeos. Los resultados experimentales demuestran que Flex-Judge alcanza un rendimiento competitivo o superior en comparación con las API comerciales de vanguardia y los evaluadores multimodales con una amplia formación, a pesar de estar entrenados con una cantidad significativamente menor de datos de texto. Este hallazgo es especialmente relevante para modalidades como las moléculas, donde se carece de parámetros de evaluación exhaustivos, lo que destaca su valor práctico en dominios con recursos limitados. Este estudio hace avanzar significativamente los modelos multimodales escalables como juez al presentar la supervisión de texto basada en inferencias como una alternativa poderosa y rentable a los enfoques intensivos de anotación existentes.

Takeaways, Limitations

Takeaways:
Presentamos un modelo de juicio multimodal (Flex-Judge) que se generaliza en varias modalidades utilizando datos de texto mínimos.
Logra un desempeño competitivo en comparación con las API comerciales existentes y evaluadores multimodales ampliamente capacitados.
Muestra una gran utilidad práctica en campos con recursos limitados (por ejemplo, modalidad molecular).
Demostrar la eficacia de la supervisión de texto basada en inferencias y contribuir al desarrollo de modelos multimodales escalables (como juez).
Limitations:
Es necesaria una verificación adicional del rendimiento de generalización del modelo propuesto.
Se necesita más investigación para abordar las limitaciones de la generalización entre diferentes modalidades y formatos de evaluación.
Posible sesgo de datos para modalidades específicas.
Dependencia de los datos de texto basados en inferencias de la calidad y la cantidad.
👍