[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Những nhiễu loạn tức thời tiết lộ những thành kiến giống con người trong các phản hồi khảo sát LLM

Created by
  • Haebom

Tác giả

Jens RupprechtGeorg AhnertMarkus Strohmaier

Phác thảo

Bài báo này nghiên cứu độ tin cậy và tính dễ bị ảnh hưởng bởi sai lệch phản hồi của các mô hình ngôn ngữ quy mô lớn (LLM) làm đối tượng thay thế cho con người trong các cuộc khảo sát khoa học xã hội. Sử dụng bảng câu hỏi Khảo sát Giá trị Thế giới (WVS), chúng tôi đã thực hiện hơn 167.000 cuộc phỏng vấn thử với chín LLM khác nhau, áp dụng 11 thay đổi về định dạng câu hỏi và cấu trúc tùy chọn phản hồi. Chúng tôi nhận thấy rằng LLM không chỉ dễ bị thay đổi mà còn thể hiện sai lệch gần đây nhất quán trên tất cả các mô hình, với các mức độ mạnh yếu khác nhau và ưu tiên tùy chọn phản hồi cuối cùng được đưa ra. Mặc dù các mô hình lớn hơn thường mạnh mẽ hơn, nhưng tất cả các mô hình vẫn nhạy cảm với những thay đổi về ngữ nghĩa như diễn đạt lại và những thay đổi phức tạp. Bằng cách áp dụng một loạt các thay đổi, chúng tôi nhận thấy rằng LLM phù hợp một phần với các sai lệch phản hồi khảo sát được quan sát thấy ở con người. Điều này làm nổi bật tầm quan trọng của thiết kế nhanh chóng và kiểm tra độ mạnh mẽ khi tạo dữ liệu khảo sát tổng hợp bằng LLM.

Takeaways, Limitations

Takeaways:
Cho thấy LLM dễ bị ảnh hưởng bởi sai lệch phản hồi khi áp dụng vào các cuộc khảo sát khoa học xã hội.
Xác nhận xu hướng thiên vị gần đây thường xuất hiện trong các chương trình LLM.
Nhấn mạnh tầm quan trọng của thiết kế nhanh chóng và thử nghiệm độ bền khi tạo dữ liệu khảo sát tổng hợp bằng LLM.
Kích thước LLM lớn hơn thường mang lại độ bền cao hơn.
Chúng tôi xác nhận rằng độ lệch phản ứng của LLM có một phần trùng khớp với độ lệch phản ứng của con người.
Limitations:
Loại LLM được sử dụng trong nghiên cứu này và đặc điểm của các câu hỏi WVS có thể ảnh hưởng đến khả năng khái quát hóa của kết quả nghiên cứu.
Cần có thêm nghiên cứu về nhiều loại câu hỏi khảo sát và nhiễu loạn khác nhau.
Cần nghiên cứu thêm để xác định cách loại bỏ hoàn toàn sai lệch phản hồi trong LLM.
👍