Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

JudgeLRM: Modelos de razonamiento amplios como juez

Created by
  • Haebom

Autor

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

Describir

Este artículo explora el uso de modelos de lenguaje a gran escala (LLM) como evaluadores. Los enfoques existentes de ajuste fino supervisado (SFT) presentan limitaciones en tareas que requieren inferencia compleja. Este artículo investiga si los evaluadores de LLM se benefician sustancialmente de una mejora en el rendimiento de la inferencia. Nuestros resultados revelan una correlación negativa entre la mejora en el rendimiento de SFT y la proporción de muestras con altas exigencias de inferencia. Para superar esta limitación, proponemos JudgeLRM, un novedoso LLM basado en aprendizaje por refuerzo (RL) que utiliza recompensas impulsadas por el evaluador. JudgeLRM supera a los modelos basados ​​en SFT y a los modelos de inferencia de vanguardia, especialmente en tareas de juicio que requieren inferencia profunda. JudgeLRM-3B supera a GPT-4 en un 2,79 % en la puntuación F1, y JudgeLRM-7B supera a DeepSeek-R1 en un 2,79 %.

Takeaways, Limitations

Takeaways:
Proponemos JudgeLRM, un nuevo enfoque que utiliza LLM como evaluador, para superar las limitaciones del método SFT existente.
A través del aprendizaje de refuerzo, logramos mejoras en la capacidad de inferencia y el desempeño de evaluación de LLM.
JudgeLRM supera a los modelos existentes de mejor rendimiento en tareas de evaluación que requieren razonamiento complejo.
Sugerimos la posibilidad de aumentar la escalabilidad y la eficiencia de los sistemas de evaluación basados ​​en LLM.
Limitations:
Es posible que las mejoras de rendimiento de JudgeLRM estén limitadas a conjuntos de datos o tareas específicos.
La complejidad y el coste computacional de los procesos de aprendizaje basados ​​en el aprendizaje de refuerzo pueden ser elevados.
Se necesita más investigación sobre la transparencia y explicabilidad de los criterios de juicio de JudgeLRM.
Se requiere verificar el rendimiento de la generalización en varios dominios y tareas de evaluación.
👍