[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El ajuste fino supervisado de datos seleccionados es aprendizaje de refuerzo (y se puede mejorar)

Created by
  • Haebom

Autor

Chongli Qin, Jost Tobias Springenberg

Describir

Este artículo trata sobre el ajuste fino del aprendizaje supervisado (SFT) de modelos lingüísticos a gran escala y la replicación del comportamiento (BC) en datos limpios (o filtrados), que se utiliza principalmente para el aprendizaje por imitación de políticas de control. Con base en estudios previos, aclaramos que SFT puede entenderse como la maximización de un límite inferior en el objetivo de aprendizaje por refuerzo (RL) en entornos de recompensa dispersa. En este sentido, proponemos SFT ponderado por importancia (iw-SFT), que es una ligera modificación de SFT y se comporta de forma más cercana al aprendizaje RL. iw-SFT optimiza un límite más estricto en el objetivo RL y puede mejorar el rendimiento sobre SFT en datos limpios. iw-SFT es fácil de implementar y puede generalizarse al aprendizaje con datos de calidad. Como resultado, las variantes de SFT propuestas son competitivas con algoritmos RL más avanzados para el aprendizaje de políticas en modelos lingüísticos a gran escala y tareas de control continuo. Por ejemplo, logramos un rendimiento del 66.7% en el conjunto de datos AIME 2024.

Takeaways, Limitations

Takeaways:
Respaldamos teóricamente el desempeño superior de SFT interpretándolo como una maximización del límite inferior del objetivo RL.
Proponemos SFT ponderada por importancia (iw-SFT) para mejorar SFT de una manera más cercana al RL y lograr una mejora en el rendimiento.
Iw-SFT es fácil de implementar y generalizable para utilizar datos de puntuación de calidad.
Muestra un rendimiento competitivo con algoritmos RL avanzados en modelos de lenguaje a gran escala y tareas de control continuo (rendimiento del 66,7 % en el conjunto de datos AIME 2024).
Limitations:
Se necesita una verificación experimental adicional para verificar si las mejoras de rendimiento de iw-SFT presentadas en el artículo son consistentes en todas las situaciones.
El rendimiento de iw-SFT puede verse afectado en gran medida por la precisión y confiabilidad de los datos del puntaje de calidad.
Se necesita más investigación sobre el rendimiento de generalización del método propuesto, especialmente en las evaluaciones de rendimiento en varios conjuntos de datos y tareas.
👍