Bài báo này tổng quan một cách có hệ thống 23 nghiên cứu thực nghiệm được công bố từ năm 2017 đến năm 2025 theo hướng dẫn PRISMA nhằm phân tích những hạn chế của các nghiên cứu hiện có về đánh giá trải nghiệm người dùng (UX) của các hệ thống đề xuất hội thoại (CRS) và đề xuất các hướng nghiên cứu trong tương lai. Cụ thể, chúng tôi chỉ ra sự thiếu hụt các nghiên cứu về đánh giá UX của CRS thích ứng và các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi phân tích các định nghĩa khái niệm UX, phương pháp đo lường, phạm vi, khả năng thích ứng và ảnh hưởng của LLM. Chúng tôi chỉ ra những thiếu sót như sự thống trị của nghiên cứu theo dõi, việc đánh giá hiếm hoi các thành phần UX cảm xúc theo lượt và mối liên hệ hiếm hoi giữa các hành vi thích ứng và kết quả UX. Chúng tôi cũng nêu bật các vấn đề như sự mơ hồ về nhận thức luận và tính dài dòng của các CRS dựa trên LLM. Chúng tôi tổng hợp các số liệu UX có cấu trúc để phát triển các phương pháp đánh giá CRS minh bạch, hấp dẫn và lấy người dùng làm trung tâm hơn, tiến hành phân tích so sánh giữa các hệ thống thích ứng và không thích ứng, đồng thời đề xuất một chương trình nghị sự hướng tới tương lai cho việc đánh giá UX, trong đó có xem xét LLM.