Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AlignDistil: Alineación de modelos de lenguaje a nivel de token como destilación de políticas adaptativas

Created by
  • Haebom

Autor

Songming Zhang, Xue Zhang, Tong Zhang, Bojie Hu, Yufeng Chen, Jinan Xu

Describir

En este artículo, proponemos AlignDistil, un método novedoso para superar las limitaciones del aprendizaje de refuerzo basado en recompensas a nivel de respuesta (RLHF) y la optimización de preferencia directa (DPO) dispersos existentes para la alineación de modelos de lenguaje a gran escala (LLM). AlignDistil es un método de destilación equivalente a RLHF para la optimización de recompensas a nivel de token. Probamos teóricamente la equivalencia del proceso de destilación a nivel de token introduciendo la recompensa aprendida en DPO en la función objetivo de RLHF. Utiliza una distribución maestra que combina linealmente los logits del modelo DPO y el modelo de referencia. Además, reducimos la brecha de precisión entre la recompensa del modelo DPO y el modelo de recompensa pura a través de recompensas DPO contrastivas utilizando modelos DPO normales e inversos, y construimos una distribución maestra adecuada para cada token a través de un mecanismo de extrapolación logit adaptativo de tokens para prevenir el sobreajuste y el subajuste. Los resultados experimentales muestran que AlignDistil tiene mejor rendimiento y una convergencia más rápida que los métodos existentes.

Takeaways, Limitations

Takeaways:
Demostramos que la optimización de recompensas a nivel de token puede mejorar el rendimiento y la velocidad de convergencia de la alineación LLM.
Al combinar las ventajas de RLHF y DPO, proponemos un método de alineación LLM más eficiente.
El mecanismo de extrapolación logit adaptativo de tokens puede aliviar los problemas de sobreajuste y subajuste.
La compensación DPO contrastiva puede mejorar la precisión de compensación del modelo DPO.
Limitations:
Se necesitan más estudios para investigar el rendimiento de generalización del método propuesto.
Se necesitan más resultados experimentales sobre diferentes arquitecturas LLM y conjuntos de datos.
Es posible que falten directrices para ajustar los parámetros del mecanismo de extrapolación logit adaptativo de tokens.
Los costos computacionales pueden aumentar en comparación con los métodos existentes.
👍