Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sinergia de profundidad y amplitud en RLVR: Desbloqueo de las ganancias de razonamiento de LLM con exploración adaptativa

Created by
  • Haebom

Autor

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Aprendizaje por refuerzo con recompensa verificable: profundidad y amplitud

Describir

Este artículo se centra en dos aspectos inexplorados del Aprendizaje por Refuerzo con Recompensa Verificable (RLVR): la profundidad (muestreo de problemas difíciles) y la amplitud (el número de instancias utilizadas en una sola iteración) para superar las limitaciones del RLVR. Analizamos el sesgo del algoritmo GRPO y proponemos el Muestreo de Despliegue Adaptativo a la Dificultad (DARS) para abordar el problema de ignorar la profundidad. Además, ampliamos la amplitud de los datos de entrenamiento para lograr un mejor rendimiento. DARS-B, que combina DARS y amplitud, demuestra mejoras simultáneas en Pass@K y Pass@1.

Takeaways, Limitations

Takeaways:
Rendimiento mejorado al mejorar el muestreo para problemas difíciles a través de DARS.
Mejorar la capacidad de inferencia ampliando la amplitud de los datos de entrenamiento.
DARS y Breadth son dos factores independientes que son importantes para mejorar la capacidad de inferencia de RLVR.
Mejoras tanto en Pass@K como en Pass@1 a través de DARS-B.
Limitations:
Basado en el análisis de sesgo del algoritmo GRPO.
Los detalles de implementación específicos para las extensiones DARS y Breadth pueden ser limitados.
Esto puede ser el resultado de un algoritmo y un problema específicos, y se necesita más investigación para determinar su generalización.
👍