Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RSPO: Alineación regularizada de auto-juegos de modelos lingüísticos grandes

Created by
  • Haebom

Autor

Xiaohang Tang, Sangwoong Yoon, Seongho Son, Huizhuo Yuan, Quanquan Gu, Ilija Bogunovic

Describir

Este artículo destaca la importancia de la regularización de la política de referencia en el alineamiento de autojuego, que se ha convertido en un enfoque eficaz para el ajuste fino de modelos de lenguaje a gran escala (LLM). Dado que la regularización de la política de referencia no se ha estudiado suficientemente en los métodos de alineamiento de autojuego existentes, proponemos un marco general y modular, la Optimización de Políticas de Autojuego Regulado (RSPO), para estudiar los efectos de diversas estrategias de regularización. La RSPO unifica los métodos existentes y permite una fácil integración inmediata de diversos regularizadores, garantizando al mismo tiempo la convergencia al equilibrio de Nash del juego regularizado correspondiente. Los resultados experimentales con más de 120 modelos Mistral-7B-Instruct ajustados muestran que la regularización de la divergencia KL hacia adelante reduce la longitud de respuesta, mientras que la divergencia KL hacia atrás mejora significativamente la probabilidad de ganar. En particular, la RSPO regularizada mediante una combinación lineal de divergencias KL hacia adelante y hacia atrás mejora significativamente la tasa de éxito controlada por longitud del 28,5 % (autojuego no regulado, SPPO) al 35,4 % en AlpacaEval-2, y la supera consistentemente en las puntuaciones de Arena-Hard, MT-Bench, ArmoRM y diversidad de respuesta. La RSPO proporciona una base sólida para explorar el autojuego regularizado en la alineación de modelos lingüísticos al combinar simplicidad, garantías de convergencia y logros experimentales significativos.

Takeaways, Limitations

Takeaways:
La RSPO estudia sistemáticamente la eficacia de diversas estrategias regulatorias en la alineación con el juego propio y proporciona un marco general y modular para mejorar el desempeño en función de los resultados.
Demostramos experimentalmente que una combinación de regularización de divergencia KL hacia adelante y hacia atrás puede lograr un rendimiento mejorado con respecto a los métodos de alineación de auto-juego existentes.
Mostró un excelente desempeño en varios puntos de referencia como AlpacaEval-2, Arena-Hard, MT-Bench y ArmoRM.
Limitations:
Dado que este estudio se basa en resultados experimentales para un LLM específico (Mistral-7B-Instruct), su generalización a otros LLM requiere más estudios.
La estrategia de regularización óptima y la configuración de hiperparámetros pueden variar según el modelo y la tarea.
Se necesita investigación adicional sobre otros tipos de estrategias regulatorias además de la divergencia KL.
👍