Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CUPID: Đánh giá sự liên kết cá nhân hóa và theo ngữ cảnh của LLM từ các tương tác

Created by
  • Haebom

Tác giả

Tae Soo Kim, Yoonjoo Lee, Yoonah Park, Jiho Kim, Young-Ho Kim, Juho Kim

Phác thảo

Bài báo này nêu bật những hạn chế của các phương pháp tiếp cận hiện có trong việc cá nhân hóa các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách giả định rằng sở thích của người dùng là tĩnh và nhất quán trong các tác vụ, nhấn mạnh rằng sở thích thực tế của người dùng thay đổi linh hoạt theo ngữ cảnh. Để đánh giá điều này, chúng tôi trình bày chuẩn mực CUPID, bao gồm 756 bản ghi phiên tương tác do con người quản lý giữa người dùng và trợ lý trò chuyện dựa trên LLM. Trong mỗi phiên tương tác, người dùng đưa ra một yêu cầu trong một ngữ cảnh cụ thể và thể hiện sở thích của họ thông qua nhiều vòng phản hồi. Chuẩn mực CUPID xem xét một yêu cầu mới của người dùng và các phiên tương tác trước đó để đánh giá liệu LLM có thể suy ra các sở thích liên quan đến yêu cầu đó và tạo ra phản hồi đáp ứng các sở thích đó hay không. Đánh giá của chúng tôi về mười LLM nguồn mở và độc quyền cho thấy ngay cả các LLM tiên tiến cũng gặp khó khăn trong việc suy ra sở thích từ nhiều tương tác và xác định ngữ cảnh nào trước đó có liên quan đến yêu cầu mới (với độ chính xác <50% và độ thu hồi <65%). Nghiên cứu này nhấn mạnh nhu cầu cải thiện khả năng của LLM cho các tương tác được cá nhân hóa, nhạy cảm với ngữ cảnh và đề xuất CUPID như một nguồn lực cho những cải tiến đó.

Takeaways, Limitations

Takeaways:
Nhấn mạnh nhu cầu cải thiện khả năng tương tác cá nhân hóa phù hợp với bối cảnh của LLM.
Chúng tôi xin giới thiệu CUPID, một chuẩn mực mới để đánh giá khả năng nhận thức tình huống và suy luận sở thích của LLM.
Chúng tôi chứng minh bằng kinh nghiệm rằng các chương trình LLM hiện đại không có khả năng suy ra sở thích theo tình huống và xác định các tình huống có liên quan.
Limitations:
Cần phải mở rộng hơn nữa quy mô của chuẩn mực CUPID (756 phiên) trong tương lai.
Nhu cầu phản ánh toàn diện hơn các loại người dùng và tình huống khác nhau.
Các loại LLM được đánh giá có thể bị hạn chế.
👍