Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Flex-Judge: El razonamiento basado únicamente en texto libera evaluadores multimodales de cero disparos

Created by
  • Haebom

Autor

Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun

Describir

Este artículo aborda las señales de recompensa generadas por humanos, que desempeñan un papel crucial en la alineación de los modelos generativos con las preferencias humanas. Los enfoques existentes que utilizan LLM como evaluadores (LLM como juez) reducen significativamente el coste de la anotación manual, pero suelen requerir una gran cantidad de datos de entrenamiento específicos de cada modalidad y presentan dificultades para generalizar adecuadamente en diversas tareas multimodales. En este artículo, proponemos Flex-Judge, un modelo de juicio multimodal basado en inferencia que se generaliza robustamente en múltiples modalidades y formatos de evaluación utilizando datos mínimos de inferencia de texto. La idea central es que las explicaciones de inferencia de texto estructurado incorporan inherentemente patrones de decisión generalizables, que pueden transferirse eficazmente a juicios multimodales como imágenes y vídeos. Los resultados experimentales demuestran que Flex-Judge alcanza un rendimiento competitivo o superior en comparación con las API comerciales de vanguardia y los evaluadores multimodales con un amplio entrenamiento, a pesar de estar entrenado con una cantidad significativamente menor de datos de texto. Este hallazgo tiene amplias implicaciones, en particular para modalidades como las moléculas, donde se carece de parámetros de evaluación exhaustivos, lo que resalta su valor práctico en dominios con recursos limitados. El marco presentado en este artículo supone un avance significativo en los modelos multimodales escalables, basados en la evaluación, al presentar la supervisión de texto basada en inferencia como una alternativa potente y rentable a los enfoques actuales que requieren una anotación intensiva.

Takeaways, Limitations

Takeaways:
Presentamos un modelo de evaluación multimodal que se generaliza bien en varias modalidades utilizando datos de texto mínimos.
Proporciona un método de evaluación de modelos multimodales más eficiente y rentable que los enfoques convencionales con uso intensivo de anotaciones.
Se ha demostrado que puede utilizarse eficazmente incluso en campos con escasos recursos (por ejemplo, la modalidad molecular).
Demostrando la utilidad de la supervisión de texto basada en inferencias.
Limitations:
El rendimiento del modelo propuesto puede estar sesgado hacia conjuntos de datos o tareas específicas (el Limitations específico no se menciona explícitamente en el documento).
Tal vez se necesiten más investigaciones para determinar la transparencia y la interpretabilidad del proceso de razonamiento (falta una descripción detallada del proceso de razonamiento).
👍