Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Replanteando la regularización KL en RLHF: de la estimación de valores a la optimización de gradientes

Created by
  • Haebom

Autor

Kezhao Liu, Jason Klein Liu, Mingtao Chen, Yiming Liu

Describir

Al analizar las implementaciones de la pérdida por divergencia de KL en RLHF, proponemos un marco unificado que conecta los dos estilos de implementación de "k_n como recompensa" y "k_n como pérdida". Este marco ilustra el principio de regularización de KL inversa (RKL) y demuestra que "k_2 como pérdida" es equivalente en gradiente a "k_1 en recompensa" en condiciones de política. Además, demostramos que "k_3 como pérdida" es una aproximación sesgada y proponemos un método para corregir el sesgo que puede surgir en implementaciones fuera de política.

Takeaways, Limitations

Takeaways:
Al proporcionar una comprensión integral de cómo se implementa la pérdida de divergencia KL, contribuimos a mejorar la estabilidad y la eficiencia de los sistemas RLHF.
Presentamos una implementación correcta del objetivo RKL al demostrar la equivalencia de 'k_2 como pérdida' y 'k_1 en recompensa'.
Señalamos las limitaciones de 'k_3 como pérdida' y sugerimos un método para resolver el problema de sesgo en la implementación fuera de política.
Limitations:
Es posible que el documento no contenga detalles específicos sobre la aplicación y la verificación del rendimiento de la metodología presentada en un sistema RLHF real.
Es posible que falte análisis sobre el impacto del marco propuesto en otros estudios relacionados con la pérdida de divergencia de KL.
Dado que este análisis se limita a condiciones dentro de las políticas, es posible que se requiera investigación adicional en entornos fuera de las políticas.
👍