Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

Created by
  • Haebom

Autor

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Describir

Este artículo identifica tres desventajas principales del aprendizaje por refuerzo (AR) basado exclusivamente en recompensas numéricas: estancamiento en el rendimiento, efectividad limitada de la autorreflexión y fallos persistentes. Para superar estas desventajas, proponemos Critique-GRPO, un novedoso marco de aprendizaje por refuerzo que integra la crítica del lenguaje natural. Critique-GRPO optimiza las políticas aprovechando simultáneamente la retroalimentación numérica y del lenguaje natural, y emplea una función de modelado que refuerza el aprendizaje para las correcciones correctas y penaliza las incorrectas. Los resultados experimentales con los modelos Qwen2.5 y Qwen3 muestran que Critique-GRPO supera consistentemente a los métodos existentes de aprendizaje supervisado y ajuste fino basados ​​en el AR en ocho tareas desafiantes de matemáticas, STEM y razonamiento general, mejorando las puntuaciones de aprobado en aproximadamente un 4,4 % (Qwen2.5-7B-Base) y un 3,8 % (Qwen3-8B), respectivamente, en promedio. En particular, el efecto de autosuperación a través de la autocrítica fue excelente, lográndose una mejora de aprobado@1 de +16,7% en comparación con GRPO (AIME 2024).

Takeaways, Limitations

Takeaways:
Demostramos la utilidad de la crítica del lenguaje natural para resolver problemas de aprendizaje de refuerzo para modelos de lenguaje a gran escala donde la retroalimentación numérica por sí sola es limitada.
Critique-GRPO proporciona un novedoso marco de aprendizaje de refuerzo que integra eficazmente la retroalimentación numérica y en lenguaje natural para lograr mejoras en el rendimiento.
Demuestra el potencial para maximizar la mejora del rendimiento a través de la superación personal mediante la autocrítica.
Rendimiento superior verificado en comparación con los métodos existentes en diversas tareas de inferencia.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesita una evaluación de escalabilidad para LLM de distintos tamaños y tipos.
La necesidad de evaluar la dependencia de la crítica del lenguaje natural de la calidad y su robustez.
Se necesitan más investigaciones para establecer los parámetros óptimos de la función de modelado.
👍