Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RLTHF: Retroalimentación humana específica para la alineación del LLM

Created by
  • Haebom

Autor

Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra

Describir

Este documento propone RLTHF, un marco híbrido humano-IA, para abordar el alto costo del aprendizaje de refuerzo basado en retroalimentación humana (RLHF) y la generalización limitada de la retroalimentación de IA en el proceso de alinear modelos de lenguaje a gran escala (LLM) con las preferencias del usuario. RLTHF logra una alineación completa anotada por humanos con un mínimo esfuerzo al combinar la alineación inicial basada en LLM con anotaciones humanas selectivas. Utiliza la distribución de recompensas del modelo de recompensas para identificar muestras desafiantes mal clasificadas por el LLM y mejora iterativamente la alineación aprovechando las muestras correctamente clasificadas por el LLM al tiempo que incorpora correcciones humanas estratégicas. Los resultados de la evaluación en los conjuntos de datos HH-RLHF y TL; DR demuestran que RLTHF logra una alineación completa anotada por humanos con solo el 6-7% de las tareas anotadas por humanos. Además, los modelos entrenados en el conjunto de datos curados de RLTHF superan a los modelos entrenados en el conjunto de datos completo anotado por humanos en subtareas, lo que destaca la efectividad de RLTHF.

Takeaways, Limitations

Takeaways:
Se presenta un enfoque novedoso para abordar eficazmente el alto costo de la RLHF.
Lograr una alineación de modelos de alto nivel con un mínimo esfuerzo humano.
Los modelos entrenados con RLTHF superan a los modelos basados en datos existentes totalmente anotados.
Demostrar la eficacia de un enfoque híbrido que combina eficazmente las fortalezas del LLM con la experiencia humana.
Limitations:
El rendimiento de RLTHF puede depender de la precisión del modelo de recompensa. Una disminución en el rendimiento del modelo de recompensa puede conllevar una disminución en la eficiencia de RLTHF.
Dado que los resultados de la evaluación provienen de un conjunto de datos limitado (HH-RLHF, TL; DR), se necesita más investigación para determinar el rendimiento de generalización a otros conjuntos de datos o tareas.
Falta un análisis detallado de qué tipos de errores cometen los LLM y qué errores corrigen los humanos.
Se necesitan más investigaciones para optimizar la estrategia de anotación humana selectiva de RLTHF.
👍