Cet article met en évidence les limites des approches existantes de personnalisation des modèles linguistiques à grande échelle (MLH). En effet, les préférences des utilisateurs sont statiques et cohérentes d'une tâche à l'autre, et les préférences réelles évoluent dynamiquement selon les contextes. Pour évaluer ce phénomène, nous présentons le benchmark CUPID, composé de 756 enregistrements de sessions d'interaction entre utilisateurs et assistants de chat basés sur les LHH. Lors de chaque session d'interaction, l'utilisateur formule une requête dans un contexte spécifique et exprime ses préférences par le biais de plusieurs cycles de feedback. Le benchmark CUPID prend en compte une nouvelle requête utilisateur et les sessions d'interaction précédentes pour évaluer si le LHH peut déduire les préférences associées à cette requête et générer une réponse qui les satisfait. Notre évaluation de dix LHH open source et propriétaires révèle que même les LHH les plus performants peinent à déduire les préférences de multiples interactions et à identifier les contextes antérieurs pertinents pour une nouvelle requête (avec une précision inférieure à 50 % et un rappel inférieur à 65 %). Cette étude souligne la nécessité d'améliorer les capacités des LHH pour des interactions contextuelles et personnalisées, et propose CUPID comme ressource pour ces améliorations.