Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Rompiendo el cuello de botella de la exploración: aprendizaje de refuerzo basado en rúbricas para razonamiento general de LLM
Created by
Haebom
Autor
Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song
Describir
Este artículo presenta un método para aprovechar el aprendizaje por refuerzo (AR) con el fin de mejorar la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM). El entrenamiento actual de LLM basado en AR se basa en muestras de alta calidad, pero las limitaciones inherentes de los LLM limitan la exploración de estas muestras. Para abordar esto, este artículo propone un nuevo marco de aprendizaje por refuerzo basado en rúbricas (RuscaRL). RuscaRL utiliza rúbricas de tipo lista de verificación para inducir respuestas diversas y de alta calidad durante la fase de generación de la implementación y proporciona recompensas fiables basadas en las rúbricas durante la fase de entrenamiento del modelo. Como resultado, RuscaRL supera a los métodos existentes en diversas pruebas de referencia. En particular, mejora el rendimiento de Qwen2.5-7B-Instruct de 23,6 a 50,3 en HealthBench-500, y de Qwen3-30B-A3B-Instruct a 61,1, superando a GPT-4.1 y OpenAI-o3.
Takeaways, Limitations
•
Takeaways:
◦
Demostramos que la capacidad de razonamiento de LLM se puede mejorar de manera efectiva a través de un marco de aprendizaje de refuerzo (RuscaRL) utilizando una rúbrica estilo lista de verificación.
◦
Se logró un rendimiento de última generación en varios puntos de referencia, superando particularmente a GPT-4.1 en HealthBench-500.
◦
Las estrategias de exploración y recompensa basadas en rúbricas presentan una metodología eficaz para mejorar la capacidad de razonamiento del LLM.
•
Limitations:
◦
La investigación está actualmente en curso y el código, el modelo y el conjunto de datos se publicarán en una fecha posterior.
◦
El rendimiento puede verse significativamente afectado por la calidad del diseño de la rúbrica. Faltan descripciones y directrices detalladas para su diseño.
◦
Falta de evaluación del desempeño de generalización para varios tipos de problemas de inferencia.