Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje posterior a la finalización de los modelos lingüísticos

Created by
  • Haebom

Autor

Xiang Fei, Siqi Wang, Shu Wei, Yuxiang Nie, Wei Shi, Hao Feng, Chao Feng, Can Huang

Describir

Este documento propone el aprendizaje posterior a la finalización (PCL), un nuevo marco de aprendizaje que utiliza el espacio de secuencia después de que se completa la salida del modelo, para superar la limitación del entrenamiento de modelos de lenguaje existente que termina en el token terminal ( ). PCL mejora las capacidades de inferencia y autoevaluación al continuar generando autoevaluaciones y predicciones de recompensa incluso después de que el modelo complete su salida, al tiempo que mantiene una inferencia eficiente al detenerse en el punto de finalización. Esto se logra mediante un método de aprendizaje de refuerzo de caja blanca, donde el modelo evalúa las salidas según las reglas de recompensa y supervisa las puntuaciones alineándolas con la función de recompensa. Para optimizar las capacidades de inferencia y evaluación, implementamos SFT de doble pista y lo combinamos con el aprendizaje RL para lograr una optimización híbrida multiobjetivo. Los resultados experimentales en varios conjuntos de datos y modelos demuestran mejoras de rendimiento consistentes en comparación con los métodos SFT y RL existentes.

Takeaways, Limitations

Takeaways:
Presentamos PCL, un nuevo marco que supera las limitaciones del aprendizaje de modelos de lenguaje existentes.
Mejorar las capacidades de razonamiento y autoevaluación del modelo
Mejore la calidad de la salida manteniendo una inferencia eficiente
Se presenta un método de optimización híbrido multiobjetivo que combina las fortalezas de SFT y RL.
Mejoras consistentes del rendimiento en diversos conjuntos de datos y modelos
Limitations:
Se necesitan más investigaciones para determinar el rendimiento de generalización del método propuesto.
Los resultados se presentan sólo para conjuntos de datos y modelos específicos, lo que requiere una experimentación más amplia.
Se debe considerar la complejidad y el costo computacional de los métodos de aprendizaje de refuerzo de caja blanca.
Se necesitan más investigaciones sobre la subjetividad del diseño de la función de recompensa y las cuestiones de optimización.
👍