Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Created by
  • Haebom

Autor

Xiandong Zou, Wanyu Lin, Yuchen Li, Pan Zhou

Describir

En este artículo, proponemos un nuevo marco, el Muestreo de Preferencias Duras (HPS), para alinear las respuestas de los modelos lingüísticos a gran escala (LLM) con las preferencias humanas. Los métodos de optimización de preferencias basados en los modelos Plackett-Luce (PL) y Bradley-Terry (BT) presentan problemas como la dificultad para gestionar contenido perjudicial, la utilización ineficiente de respuestas no preferidas y el alto coste computacional del PL. HPS resuelve estos problemas introduciendo una pérdida de entrenamiento que prioriza las respuestas más preferidas y rechaza todas las respuestas no preferidas y perjudiciales. En particular, mejora la capacidad de rechazo del modelo al enfatizar las respuestas no preferidas "duras" similares a las preferidas, y mantiene la calidad de la alineación a la vez que reduce la sobrecarga computacional mediante el uso de una estrategia de muestreo de Monte Carlo de muestra única. En teoría, HPS mejora la eficiencia de la muestra en comparación con los métodos PL existentes y maximiza el margen de compensación entre las respuestas preferidas y no preferidas, garantizando una distinción más clara. A través de experimentos en los conjuntos de datos HH-RLHF y PKU-Safety, verificamos la eficacia de HPS, logrando puntajes BLEU y de recompensa similares mientras mejoramos significativamente el margen de recompensa, reduciendo así la generación de contenido dañino.

Takeaways, Limitations

Takeaways:
Resuelve eficazmente los problemas de procesamiento de contenido dañino, uso ineficiente de respuestas no preferidas y alto costo computacional de los métodos de optimización de preferencias existentes.
Eficiencia computacional mejorada a través de una estrategia de muestreo de Monte Carlo de muestra única.
Maximiza el margen de recompensa entre las respuestas preferidas y no preferidas para permitir una distinción más clara.
Verificamos la reducción de la creación de contenido dañino y la mejora del rendimiento a través de resultados experimentales en los conjuntos de datos HH-RLHF y PKU-Safety.
Limitations:
Se necesitan experimentos y análisis adicionales para determinar el rendimiento general y las limitaciones del HPS presentado en este artículo.
Se necesita más investigación sobre la aplicabilidad y el rendimiento de generalización de HPS a diferentes tipos de LLM y conjuntos de datos.
Se necesita una explicación y un análisis más detallado de cómo HPS define y selecciona respuestas “difíciles” no preferidas.
👍