Bài báo này nêu bật những hạn chế của các phương pháp tiếp cận hiện có trong việc cá nhân hóa các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách giả định rằng sở thích của người dùng là tĩnh và nhất quán trong các tác vụ, nhấn mạnh rằng sở thích thực tế của người dùng thay đổi linh hoạt theo ngữ cảnh. Để đánh giá điều này, chúng tôi trình bày chuẩn mực CUPID, bao gồm 756 bản ghi phiên tương tác do con người quản lý giữa người dùng và trợ lý trò chuyện dựa trên LLM. Trong mỗi phiên tương tác, người dùng đưa ra một yêu cầu trong một ngữ cảnh cụ thể và thể hiện sở thích của họ thông qua nhiều vòng phản hồi. Chuẩn mực CUPID xem xét một yêu cầu mới của người dùng và các phiên tương tác trước đó để đánh giá liệu LLM có thể suy ra các sở thích liên quan đến yêu cầu đó và tạo ra phản hồi đáp ứng các sở thích đó hay không. Đánh giá của chúng tôi về mười LLM nguồn mở và độc quyền cho thấy ngay cả các LLM tiên tiến cũng gặp khó khăn trong việc suy ra sở thích từ nhiều tương tác và xác định ngữ cảnh nào trước đó có liên quan đến yêu cầu mới (với độ chính xác <50% và độ thu hồi <65%). Nghiên cứu này nhấn mạnh nhu cầu cải thiện khả năng của LLM cho các tương tác được cá nhân hóa, nhạy cảm với ngữ cảnh và đề xuất CUPID như một nguồn lực cho những cải tiến đó.