Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Optimización de preferencias selectivas mediante la estimación de la función de recompensa a nivel de token

Created by
  • Haebom

Autor

Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Erxue Min, Sophia Ananiadou

Describir

Este artículo propone la Optimización de Preferencias Selectivas (SePO), una novedosa estrategia de alineación selectiva para la alineación de modelos lingüísticos a gran escala. A diferencia de los métodos de alineación a nivel de token existentes, que optimizan todos los tokens o emplean estrategias complejas y costosas de selección de tokens clave, SePO se centra en la selección eficiente de tokens clave. SePO presenta el primer método de selección de tokens basado en la Optimización de Preferencias Directas (DPO), que entrena un modelo de oráculo para estimar una función de recompensa a nivel de token para los datos objetivo. Este método es aplicable a conjuntos de datos de alineación existentes con anotaciones a nivel de respuesta y permite una selección de tokens rentable utilizando un modelo de oráculo pequeño y datos de entrenamiento. La función de recompensa estimada se utiliza para puntuar todos los tokens en el conjunto de datos objetivo, y solo se seleccionan los tokens clave para supervisar el modelo de política objetivo utilizando una función objetivo contrastiva sin un modelo de referencia. Experimentos exhaustivos en tres puntos de referencia de evaluación disponibles públicamente demuestran que SePO supera significativamente a los métodos de referencia de la competencia al optimizar solo el 30% de los tokens clave en el conjunto de datos objetivo. La aplicación de SePO de una generalización débil a una generalización fuerte demuestra que un modelo de oráculo débil supervisa eficazmente un modelo de política fuerte con hasta 16,8 veces más parámetros. Además, SePO selecciona eficazmente tokens clave de datos fuera de distribución, lo que mejora el modelo de política fuerte y mitiga el problema del sobreajuste.

Takeaways, Limitations

Takeaways:
Solución a los problemas de ineficiencia y ruido de los métodos de clasificación a nivel de token existentes a través de una selección eficiente de tokens clave.
Presentamos un nuevo método de selección de tokens basado en DPO y garantizamos su aplicabilidad a varios conjuntos de datos utilizando únicamente anotaciones de nivel de respuesta.
Selección de tokens rentable con modelos de oráculo pequeños y datos de entrenamiento.
Demostramos experimentalmente que un modelo de oráculo débil puede supervisar eficazmente un modelo de política fuerte.
Mejorar modelos de políticas sólidos y mitigar problemas de sobreajuste mediante la selección de tokens clave a partir de datos fuera de distribución.
Mejora del rendimiento verificada experimentalmente con respecto a los métodos de la competencia.
Limitations:
Alta dependencia del rendimiento del modelo Oracle basado en DPO. Si el rendimiento del modelo Oracle se deteriora, el rendimiento de SePO también podría deteriorarse.
Se necesita más investigación para determinar el rendimiento de generalización de las estrategias de selección de tokens clave. Es posible que estén sobreoptimizadas para conjuntos de datos o tareas específicos.
Se necesita más investigación para investigar la escalabilidad del método propuesto y su aplicabilidad a varias arquitecturas de modelos.
👍