Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CUPID: Evaluación de la alineación personalizada y contextualizada de los LLM a partir de interacciones

Created by
  • Haebom

Autor

Tae Soo Kim, Yoonjoo Lee, Yoonah Park, Jiho Kim, Young-Ho Kim, Juho Kim

Describir

Este artículo destaca las limitaciones de los enfoques existentes para la personalización de modelos de lenguaje a gran escala (LLM), al asumir que las preferencias del usuario son estáticas y consistentes en todas las tareas, destacando que las preferencias reales del usuario cambian dinámicamente en distintos contextos. Para evaluar esto, presentamos el benchmark CUPID, compuesto por 756 grabaciones de sesiones de interacción, seleccionadas por personas, entre usuarios y asistentes de chat basados en LLM. En cada sesión de interacción, el usuario realiza una solicitud en un contexto específico y expresa sus preferencias mediante múltiples rondas de retroalimentación. El benchmark CUPID considera una nueva solicitud de usuario y sesiones de interacción previas para evaluar si el LLM puede inferir las preferencias asociadas a dicha solicitud y generar una respuesta que las satisfaga. Nuestra evaluación de diez LLM, tanto de código abierto como propietarios, revela que incluso los LLM más avanzados tienen dificultades para inferir preferencias a partir de múltiples interacciones e identificar qué contextos previos son relevantes para una nueva solicitud (con una precisión <50% y una recuperación <65%). Este estudio destaca la necesidad de mejorar las capacidades de los LLM para interacciones personalizadas y sensibles al contexto, y propone CUPID como un recurso para dichas mejoras.

Takeaways, Limitations

Takeaways:
Destaca la necesidad de mejorar las capacidades de interacción personalizadas adaptadas al contexto del LLM.
Presentamos CUPID, un nuevo punto de referencia para evaluar la conciencia situacional y la capacidad de inferencia de preferencias de los estudiantes de LLM.
Demostramos empíricamente que los LLM de última generación carecen de la capacidad de inferir preferencias situacionales e identificar situaciones relevantes.
Limitations:
La necesidad de ampliar aún más el tamaño del índice de referencia CUPID (756 sesiones) en el futuro.
La necesidad de reflejar de forma más completa los diversos tipos de usuarios y situaciones.
Los tipos de LLM evaluados pueden ser limitados.
👍