Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sinergia de profundidad y amplitud en RLVR: Desbloqueo de las ganancias de razonamiento de LLM con exploración adaptativa

Created by
  • Haebom

Autor

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Describir

Este artículo analiza la profundidad y la amplitud, dos factores clave para mejorar el rendimiento de inferencia de modelos de lenguaje en el aprendizaje de recompensa verificable basado en aprendizaje de refuerzo (RLVR). Señalamos que el algoritmo GRPO existente, Limitations, sobrepondera las muestras con precisión media y subpondera las muestras de baja precisión, lo cual es crucial para mejorar el rendimiento de inferencia. Para abordar esto, proponemos el Muestreo de Despliegue Adaptativo a la Dificultad (DARS), una técnica que reequilibra los pesos a través de despliegues de múltiples etapas en problemas difíciles. Además, presentamos un método para expandir la amplitud de los datos de entrenamiento al aumentar significativamente el tamaño del lote y usar actualizaciones de lote completo en múltiples épocas en lugar de las iteraciones de minilotes de PPO. Finalmente, proponemos DARS-B, que combina DARS con tamaños de lote grandes, y demostramos experimentalmente que la profundidad y la amplitud contribuyen independientemente a mejorar el rendimiento de inferencia en RLVR.

Takeaways, Limitations

Takeaways:
La importancia de la profundidad y la amplitud en el algoritmo GRPO se revela en Limitations.
Mejorar el rendimiento de inferencia de RLVR a través de la técnica DARS que aumenta la exploración de problemas difíciles.
Mejoras de rendimiento adicionales mediante la expansión del ancho utilizando tamaños de lotes más grandes.
DARS-B mejora simultáneamente la profundidad y el ancho, mejorando el rendimiento tanto de Pass@K como de Pass@1.
Demostrando experimentalmente que la profundidad y el ancho operan independientemente en RLVR.
Limitations:
La eficacia del método propuesto puede estar limitada a configuraciones y conjuntos de datos RLVR específicos.
Aumento del coste computacional debido al uso de lotes de gran tamaño.
Se necesitan experimentos adicionales en tipos de problemas y conjuntos de datos más diversos.
👍