[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ampliación del aprendizaje a distancia: cómo liberar razonamiento diverso en los LLM mediante entrenamiento prolongado

Created by
  • Haebom

Autor

Mingjie Liu, Shizhe Diao, Jian Hu, Ximing Lu,

Describir

Presentamos los resultados de un estudio que aplicó aprendizaje por refuerzo a largo plazo a modelos lingüísticos a pequeña escala para lograr mejoras de rendimiento en diversos dominios de inferencia, como matemáticas, programación y acertijos lógicos. Realizamos un entrenamiento eficaz mediante el uso de señales de recompensa verificables, la mejora de la Optimización de Políticas Relativa de Grupo (GRPO) y el control de la regularización KL, la tasa de recorte y el restablecimiento periódico de la política de referencia para mejorar la estabilidad del entrenamiento y el rendimiento de la generalización. Como resultado, mostramos mejoras significativas de rendimiento con respecto a los modelos de vanguardia existentes en tareas de matemáticas (+14,7%), programación (+13,9%) y acertijos lógicos (+54,8%), y publicamos los modelos entrenados para apoyar investigaciones posteriores.

Takeaways, Limitations

Takeaways:
Posibilidad de mejorar la capacidad de inferencia de pequeños modelos de lenguaje mediante el aprendizaje de refuerzo a largo plazo
Demostrar la eficacia de las señales de recompensa verificables, las mejoras de GRPO y las técnicas de mejora de la estabilidad del entrenamiento
Rendimiento mejorado en varios dominios de razonamiento (matemáticas, codificación, acertijos lógicos)
Contribuir a la activación de la investigación mediante la divulgación pública de los modelos entrenados
Limitations:
El objeto de investigación es un modelo de lenguaje pequeño. No se ha confirmado su rendimiento al aplicarlo a un modelo a gran escala.
Falta de un análisis exhaustivo de la eficacia de técnicas específicas. Se necesita un análisis cuantitativo de la contribución de cada técnica.
Falta de una descripción detallada de los conjuntos de datos utilizados y los tipos de tareas. Se requiere mayor validación de la generalización.
👍