Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia la revelación de la eficacia del ajuste fino a pequeña escala en el aprendizaje de refuerzo estilo R1

Created by
  • Haebom

Autor

Yutong Chen, Jiandong Gao, Ji Wu

Describir

Este artículo demuestra que el aprendizaje por refuerzo basado en reglas (AR) mejora significativamente el rendimiento de inferencia de los modelos lingüísticos a gran escala (MLG), pero los mecanismos subyacentes siguen sin estar claros. Observamos que el ajuste fino supervisado (SFT) a pequeña escala tiene un impacto significativo en el AR, pero es ineficiente, y proponemos un marco analítico para explicarlo. Comparamos la eficiencia de SFT y AR midiendo el efecto del muestreo y sugerimos la posibilidad de mejorar la eficiencia de SFT. Con base en este análisis, proponemos una técnica de "redestilación" que toma muestras de políticas entrenadas en AR para mejorar la efectividad de la destilación a pequeña escala. En tres conjuntos de datos y el modelo Qwen & Llama, demostramos que el modelo de redestilación logra un rendimiento de AR con significativamente menos muestras y cálculos. En el conjunto de datos K & K, el modelo Qwen-2.5-1.5B redestilado supera a DeepSeek-V3-0324 con solo 1K muestras de SFT. Además, demostramos que la redestilación se puede utilizar para equilibrar eficientemente múltiples objetivos en RL y explicamos varios fenómenos interesantes en RL estilo R1, revelando los mecanismos detrás de su éxito empírico.

Takeaways, Limitations

Takeaways:
Propuesta de una técnica de redestilación para mejorar la eficiencia del SFT a pequeña escala.
Conseguir un rendimiento de nivel RL con menos muestras y cálculos.
Mayor comprensión de los mecanismos de RL de estilo R1.
Presentando la posibilidad de equilibrio multiobjetivo en RL.
Limitations:
Se necesitan más investigaciones para determinar la generalización del marco analítico propuesto y la técnica de redestilación.
Se necesitan más experimentos en varios LLM y conjuntos de datos.
Es necesario un análisis más profundo del coste computacional y de las limitaciones prácticas de las técnicas de redestilación.
👍