Este artículo destaca las limitaciones de los enfoques existentes para la personalización de modelos de lenguaje a gran escala (LLM), al asumir que las preferencias del usuario son estáticas y consistentes en todas las tareas, destacando que las preferencias reales del usuario cambian dinámicamente en distintos contextos. Para evaluar esto, presentamos el benchmark CUPID, compuesto por 756 grabaciones de sesiones de interacción, seleccionadas por personas, entre usuarios y asistentes de chat basados en LLM. En cada sesión de interacción, el usuario realiza una solicitud en un contexto específico y expresa sus preferencias mediante múltiples rondas de retroalimentación. El benchmark CUPID considera una nueva solicitud de usuario y sesiones de interacción previas para evaluar si el LLM puede inferir las preferencias asociadas a dicha solicitud y generar una respuesta que las satisfaga. Nuestra evaluación de diez LLM, tanto de código abierto como propietarios, revela que incluso los LLM más avanzados tienen dificultades para inferir preferencias a partir de múltiples interacciones e identificar qué contextos previos son relevantes para una nueva solicitud (con una precisión <50% y una recuperación <65%). Este estudio destaca la necesidad de mejorar las capacidades de los LLM para interacciones personalizadas y sensibles al contexto, y propone CUPID como un recurso para dichas mejoras.