Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐáNh giá trải nghiệm người dùng trong hệ thống đề xuất đàm thoại: Đánh giá có hệ thống trên các phương pháp tiếp cận cổ điển và được hỗ trợ bởi LLM

Created by
  • Haebom

Tác giả

Raj Mahmud, Yufeng Wu, Abdullah Bin Sawad, Shlomo Berkovsky, Mukesh Prasad, A. Baki Kocaballi

Phác thảo

Bài báo này tổng quan một cách có hệ thống 23 nghiên cứu thực nghiệm được công bố từ năm 2017 đến năm 2025 theo hướng dẫn PRISMA nhằm phân tích những hạn chế của các nghiên cứu hiện có về đánh giá trải nghiệm người dùng (UX) của các hệ thống đề xuất hội thoại (CRS) và đề xuất các hướng nghiên cứu trong tương lai. Cụ thể, chúng tôi chỉ ra sự thiếu hụt các nghiên cứu về đánh giá UX của CRS thích ứng và các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi phân tích các định nghĩa khái niệm UX, phương pháp đo lường, phạm vi, khả năng thích ứng và ảnh hưởng của LLM. Chúng tôi chỉ ra những thiếu sót như sự thống trị của nghiên cứu theo dõi, việc đánh giá hiếm hoi các thành phần UX cảm xúc theo lượt và mối liên hệ hiếm hoi giữa các hành vi thích ứng và kết quả UX. Chúng tôi cũng nêu bật các vấn đề như sự mơ hồ về nhận thức luận và tính dài dòng của các CRS dựa trên LLM. Chúng tôi tổng hợp các số liệu UX có cấu trúc để phát triển các phương pháp đánh giá CRS minh bạch, hấp dẫn và lấy người dùng làm trung tâm hơn, tiến hành phân tích so sánh giữa các hệ thống thích ứng và không thích ứng, đồng thời đề xuất một chương trình nghị sự hướng tới tương lai cho việc đánh giá UX, trong đó có xem xét LLM.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp phân tích có hệ thống về đánh giá trải nghiệm người dùng (UX) của các hệ thống đề xuất đàm thoại (CRS).
Làm rõ Limitations về đánh giá UX của CRS thích ứng và CRS dựa trên LLM.
Chúng tôi trình bày các số liệu UX có cấu trúc và chương trình nghị sự hướng tới tương lai để phát triển các hoạt động đánh giá CRS minh bạch hơn và lấy người dùng làm trung tâm.
Làm nổi bật các vấn đề UX cụ thể của CRS dựa trên LLM (độ mờ đục về mặt nhận thức, độ dài).
Limitations:
Chỉ ra những hạn chế của phương pháp đánh giá UX dựa trên nghiên cứu theo dõi.
Chưa có sự đánh giá đầy đủ về từng thành phần UX cảm xúc.
Chưa có đủ phân tích về mối liên hệ giữa hành vi thích ứng và kết quả UX.
Thiếu sự cân nhắc đến độ dài và độ mơ hồ về mặt nhận thức trong các đánh giá UX của CRS dựa trên LLM.
👍