[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de preferencias de usuario pluralistas mediante resúmenes optimizados de aprendizaje por refuerzo

Created by
  • Haebom

Autor

Hyunji Nam, Yanming Wan, Mickel Liu, Jianxun Lian, Natasha Jaques

Describir

En este artículo, presentamos PLUS (Aprendizaje de Preferencias Mediante Summarization), un novedoso marco para personalizar las respuestas de los grandes modelos lingüísticos (LLM) según las preferencias y objetivos del usuario. Mientras que el RLHF (Aprendizaje por Refuerzo a partir de la Retroalimentación Humana) tradicional entrena a todos los usuarios con un único modelo de recompensa, que no tiene en cuenta la variabilidad entre usuarios, PLUS aprende resúmenes textuales que resumen las preferencias, características y conversaciones previas de cada usuario. Estos resúmenes condicionan el modelo de recompensa para permitir predicciones personalizadas de los tipos de respuesta que cada usuario considera importantes. Creamos un bucle de coadaptación en línea que entrena los modelos de resumen de usuario y, simultáneamente, actualiza el modelo de recompensa mediante aprendizaje por refuerzo. Demostramos que PLUS es robusto ante nuevos usuarios y diversos temas de conversación en diversos conjuntos de datos de usuarios, y que los resúmenes de usuario generados pueden transferirse a la personalización de cero disparos de potentes modelos propietarios como GPT-4. Como resultado, los resúmenes de usuario generados son concisos y portátiles, además de fáciles de interpretar y modificar para los usuarios, lo que mejora la transparencia y el control del usuario sobre la alineación de los LLM.

Takeaways, Limitations

Takeaways:
Presentamos un marco eficaz para personalizar las respuestas de LLM según las preferencias del usuario
Robustez para nuevos usuarios y diversos temas de conversación
Verificar la transferibilidad de los resúmenes de usuarios generados a otros modelos como GPT-4
Mayor transparencia y control del usuario mediante la concisión, portabilidad y facilidad de interpretación y modificación de los resúmenes de usuario.
Limitations:
Se necesita más investigación sobre la implementación real y la escalabilidad del marco PLUS.
Es necesario verificar el rendimiento de la generalización en varios conjuntos de datos de usuario
Es necesario evaluar más a fondo la precisión y fiabilidad de los resúmenes de los usuarios.
Se requiere análisis de vulnerabilidad para entradas de usuarios maliciosos
👍