Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ẢO tưởng về tính cách: Tiết lộ sự tách biệt giữa tự báo cáo và hành vi trong LLM

Created by
  • Haebom

Tác giả

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

Phác thảo

Bài báo này phân tích một cách có hệ thống các đặc điểm tính cách trong các mô hình ngôn ngữ quy mô lớn (LLM), đánh giá động lực biểu hiện đặc điểm qua các giai đoạn đào tạo, tính hợp lệ dự đoán của các đặc điểm tự báo cáo và tác động của các biện pháp can thiệp như truyền cá tính. Phát hiện của chúng tôi chứng minh rằng điều chỉnh hướng dẫn (ví dụ: RLHF) ổn định biểu hiện đặc điểm và củng cố các mối tương quan đặc điểm tương tự như dữ liệu của con người, nhưng các đặc điểm tự báo cáo không dự đoán hành vi một cách đáng tin cậy và các mối tương quan quan sát được thường không phù hợp với các mô hình của con người. Truyền cá tính định hướng thành công các báo cáo tự theo hướng mong muốn, nhưng có ít hoặc không nhất quán tác động đến hành vi thực tế. Do đó, bằng cách phân biệt giữa biểu hiện đặc điểm bề ngoài và tính nhất quán của hành vi, chúng tôi thách thức các giả định về tính cách trong LLM và nhấn mạnh nhu cầu đánh giá sâu hơn về sự phù hợp và khả năng diễn giải.

Takeaways, Limitations

Takeaways:
Trong quá trình đào tạo LLM, tôi nhận thấy rằng sự liên kết chỉ thị đóng vai trò quan trọng trong việc tăng cường tính ổn định và tính nhất quán của việc thể hiện đặc điểm tính cách.
Các đặc điểm tính cách tự báo cáo của LLM cho thấy những hạn chế trong việc dự đoán hành vi thực tế.
Chúng tôi nhận thấy rằng các biện pháp can thiệp như truyền tải tính cách có ảnh hưởng đến các báo cáo tự đánh giá của LLM nhưng có tác dụng hạn chế đến sự thay đổi hành vi thực tế.
Limitations:
Có khả năng các đặc điểm tính cách của LLM chỉ được đánh giá dựa trên tự đánh giá và quan sát hành vi. Có thể cần những phương pháp đánh giá đa dạng và tinh vi hơn.
Kết quả có thể khác nhau tùy thuộc vào loại LLM được sử dụng trong nghiên cứu và đặc điểm của dữ liệu đào tạo. Cần nghiên cứu thêm để xác định khả năng khái quát hóa.
Mối quan hệ phức tạp giữa các đặc điểm tính cách và hành vi trong LLM có thể chưa được giải thích đầy đủ. Cần phải phân tích và diễn giải thêm.
👍