Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CDE: Exploración impulsada por la curiosidad para un aprendizaje de refuerzo eficiente en modelos lingüísticos amplios

Created by
  • Haebom

Autor

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

Describir

Este artículo se centra en mejorar las estrategias de exploración para optimizar el rendimiento de inferencia de modelos de lenguaje grandes (LLM) en el aprendizaje por refuerzo con recompensas verificables (RLVR). Para abordar los problemas de convergencia prematura y decaimiento de entropía de los métodos RLVR existentes, proponemos un marco de exploración impulsado por la curiosidad (CDE) que aprovecha la curiosidad inherente del modelo. La incomodidad del actor con respecto a las respuestas generadas y la varianza de las estimaciones de valor del crítico obtenidas de la arquitectura multi-cabeza sirven como señales de curiosidad y como bonificaciones de exploración dentro del marco RLVR. El análisis teórico demuestra que la bonificación basada en el actor penaliza los errores de exceso de confianza y promueve la diversidad de respuestas, mientras que la bonificación basada en el crítico está vinculada a la bonificación de exploración tradicional del RL. Los resultados experimentales demuestran una mejora de rendimiento de aproximadamente 3 puntos sobre el RLVR estándar en el punto de referencia AIME. Además, analizamos el mecanismo de decaimiento de la compensación dentro del RLVR para descubrir un modo de fallo común en los LLM.

Takeaways, Limitations

Takeaways:
Presentación del marco de exploración impulsada por la curiosidad (CDE) como una estrategia de exploración eficaz para mejorar la capacidad de razonamiento del LLM
Un novedoso diseño de exploración adicional y un análisis teórico que aprovecha las señales de curiosidad de actores y críticos.
Mejora del rendimiento verificada experimentalmente con respecto al RLVR existente en el punto de referencia AIME.
Mejorar la comprensión de los modos de falla LLM a través del análisis del mecanismo de colapso de compensación de RLVR.
Limitations:
Las mejoras de rendimiento del método propuesto se limitan al benchmark AIME. Es necesario generalizarlo a otros benchmarks y tareas.
Tal vez se necesiten más investigaciones para definir y establecer señales de curiosidad.
Es necesario un análisis más profundo del mecanismo de colapso de las compensaciones y la necesidad de soluciones.
👍