Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SimpleRL-Zoo: Investigación y control del aprendizaje de refuerzo cero para modelos de base abierta en la práctica

Created by
  • Haebom

Autor

Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

Describir

Este artículo demuestra la aparición natural de la inferencia de cadena de pensamiento (CdP) de largo alcance mediante un marco simple de aprendizaje por refuerzo (AR) con recompensas basadas en reglas. Este artículo aplica el enfoque de aprendizaje de cero AR de DeepSeek-R1 a varios modelos base. A diferencia de estudios previos que se centraron principalmente en el modelo Qwen2.5, aplicamos el aprendizaje de cero AR en diez modelos base diferentes, incluyendo LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B y Qwen2.5-math-7B. Estrategias como el ajuste formal de la recompensa y el control de la dificultad de las consultas mejoraron significativamente la precisión de la inferencia y la longitud de la respuesta en la mayoría de los entornos. Sin embargo, el seguimiento de la dinámica de aprendizaje reveló que los diferentes modelos base exhibieron patrones de aprendizaje únicos. Por ejemplo, una mayor longitud de la respuesta no siempre se correlacionó con la aparición de comportamientos cognitivos específicos, como la validación. Cabe destacar que observamos "momentos reveladores" por primera vez en un modelo a pequeña escala fuera de la familia Qwen. Compartimos diseño central, resultados de investigación y experiencia práctica que permiten un aprendizaje RL exitoso de nivel cero, además de código de fuente abierta, modelos y herramientas de análisis.

Takeaways, Limitations

Takeaways:
Validamos la efectividad del aprendizaje de RL cero en varios modelos base y presentamos estrategias de diseño clave para un aprendizaje exitoso.
Logramos mejoras en la precisión de la inferencia y la longitud de la respuesta mediante el ajuste de compensación de formato y el control de la dificultad de la consulta.
También observamos "momentos reveladores" en modelos de pequeña escala fuera de la familia Qwen, lo que demuestra la diversidad de arquitecturas de modelos y la aplicabilidad del aprendizaje de RL cero.
Apoyamos futuras investigaciones haciendo público nuestro código, modelos y herramientas de análisis.
Limitations:
Tal vez falte una comprensión más profunda del proceso de aprendizaje del modelo, como lo demuestra la falta de una correlación consistente entre el aumento de la longitud de la respuesta y el surgimiento de comportamientos cognitivos.
A pesar de la diversidad de modelos subyacentes utilizados, es probable que existan sesgos hacia ciertas familias de modelos.
Es posible que necesites criterios claros para definir y medir un momento revelador.
👍