[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

Created by
  • Haebom

Autor

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

Describir

Este artículo presenta tres desventajas principales Limitations (mesetas de rendimiento, efectividad limitada de la auto-reflexión y falla persistente) del aprendizaje de refuerzo (RL) usando solo recompensas numéricas, y propone Critique-GRPO, un novedoso marco de aprendizaje de refuerzo que integra la crítica del lenguaje natural, para superarlas. Critique-GRPO realiza la optimización de la política aprovechando simultáneamente la retroalimentación numérica y del lenguaje natural, y en particular, utiliza una función de modelado que mejora el aprendizaje para correcciones correctas (especialmente desconocidas) y penaliza las correcciones incorrectas. Los resultados experimentales con los modelos Qwen2.5 y Qwen3 muestran que Critique-GRPO supera consistentemente el aprendizaje supervisado convencional y los métodos de ajuste fino basados en RL en ocho tareas de inferencia diversas, mejorando las puntuaciones promedio de pase a 1 en aproximadamente 4.4% y 3.8%, respectivamente. En particular, demuestra la auto-superación efectiva a través de la autocrítica y la mejora del rendimiento de la generalización débil a la generalización fuerte.

Takeaways, Limitations

Takeaways:
Demostramos que el problema del RL, que tiene limitaciones con solo retroalimentación numérica, se puede resolver de manera efectiva a través de la crítica del lenguaje natural.
Critique-GRPO logra un mejor rendimiento que los métodos RL existentes, lo que contribuye a mejorar la capacidad de inferencia de los LLM.
Sugiriendo la posibilidad de mejorar las habilidades de superación personal y de generalización a través de la autocrítica.
Limitations:
Existe la posibilidad de que la eficacia del método propuesto esté limitada a ciertos modelos y tareas.
El rendimiento puede verse afectado en gran medida por la calidad de la crítica del lenguaje natural.
Problemas de coste computacional y consumo de recursos de modelos lingüísticos a gran escala.
Es necesario verificar el rendimiento de la generalización para varios tipos de retroalimentación en lenguaje natural.
👍