[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

Created by
  • Haebom

Autor

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Describir

Este artículo presenta tres desventajas Limitations (metastasis de rendimiento, efectividad limitada de la autorreflexión y falla persistente) del aprendizaje por refuerzo (RL) utilizando solo retroalimentación numérica, y propone Critique-GRPO, un novedoso marco de RL que integra la crítica del lenguaje natural para superarlas. Critique-GRPO optimiza políticas utilizando simultáneamente retroalimentación numérica y crítica del lenguaje natural, y en particular, utiliza una función de modelado que refuerza la recompensa por las respuestas correctas y penaliza las incorrectas. Los resultados experimentales utilizando los modelos Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base y Qwen3-8B muestran que Critique-GRPO supera el aprendizaje supervisado convencional y los métodos de ajuste fino basados en RL en ocho tareas de inferencia diferentes, y es especialmente efectivo en la autosuperación a través de la autocrítica y el aprendizaje por transferencia de generalización débil a fuerte.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de integrar la crítica del lenguaje natural para resolver el problema del aprendizaje de refuerzo para modelos de lenguaje a gran escala, que está limitado únicamente por la retroalimentación numérica.
Critique-GRPO logra un mejor rendimiento que los métodos de aprendizaje por repetición (RL) existentes. Es especialmente eficaz para mejorar el rendimiento mediante la autocrítica y la generalización.
Muestra un desempeño mejorado en varios tipos de problemas de razonamiento (matemáticas, STEM, razonamiento general).
Limitations:
Se propone la Crítica-GRPO como solución a los tres Limitations (meseta de rendimiento, efectividad limitada de la autorreflexión y fracaso persistente) presentados, pero no se consideran otros tipos de Limitations.
La eficacia de Critique-GRPO podría limitarse a ciertos modelos y tareas. Se requieren experimentos adicionales con diversos modelos y tareas.
Puede existir una alta dependencia de la calidad de la crítica en lenguaje natural. Existe la posibilidad de una degradación del rendimiento cuando la calidad de la crítica se deteriora.
👍