Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bản địa hóa các biểu diễn Persona trong LLM

Created by
  • Haebom

Tác giả

Celia Cintas, Miriam Rateike, Erik Miehling, Elizabeth Daly, Skyler Speakman

Phác thảo

Bài báo này trình bày một nghiên cứu về cách thức và vị trí các persona, được định nghĩa là tập hợp các đặc điểm, giá trị và niềm tin độc đáo của con người, được mã hóa trong không gian biểu diễn của các mô hình ngôn ngữ quy mô lớn (LLM). Sử dụng các phương pháp giảm chiều và nhận dạng mẫu khác nhau, trước tiên chúng tôi xác định các lớp mô hình thể hiện sự thay đổi lớn nhất trong mã hóa các biểu diễn này. Sau đó, chúng tôi phân tích các kích hoạt trong các lớp được chọn này để xem xét cách các persona cụ thể được mã hóa so với các persona khác, bao gồm cả các không gian nhúng chung và độc lập. Chúng tôi nhận thấy rằng các persona được phân tích trên nhiều LLM chỉ sử dụng bộ giải mã đã được đào tạo trước chỉ thể hiện sự khác biệt đáng kể trong không gian biểu diễn trong một phần ba cuối cùng của lớp giải mã. Các kích hoạt chồng chéo được quan sát thấy đối với các quan điểm đạo đức cụ thể, chẳng hạn như chủ nghĩa hư vô đạo đức và chủ nghĩa vị lợi, cho thấy sự mơ hồ. Ngược lại, các hệ tư tưởng chính trị, chẳng hạn như chủ nghĩa bảo thủ và chủ nghĩa tự do, dường như được biểu diễn ở các vùng riêng biệt hơn. Những phát hiện này giúp chúng tôi hiểu rõ hơn về cách LLM biểu diễn thông tin nội bộ và có thể cung cấp thông tin cho các nỗ lực trong tương lai nhằm cải thiện việc điều chỉnh các đặc điểm cụ thể của con người trong đầu ra LLM. Thận trọng: Bài báo này có chứa các câu ví dụ có khả năng gây khó chịu.

Takeaways, Limitations

Takeaways:
Hiểu rõ hơn về cách LLM mã hóa nhân vật.
Takeaways cung cấp chương trình phát triển LLM nhằm cải thiện khả năng điều chỉnh các đặc điểm cụ thể của con người.
Trình bày những khác biệt trong cách thể hiện quan điểm đạo đức và hệ tư tưởng chính trị trong LLM.
Phát hiện ra rằng phần thứ ba cuối cùng của lớp giải mã đóng vai trò quan trọng trong việc thể hiện tính cách.
Limitations:
Một số câu mẫu được sử dụng trong phân tích có khả năng gây phản cảm.
Không rõ ràng về loại hình và phạm vi của LLM cần phân tích (có thể cần nghiên cứu thêm).
Có thể còn thiếu một phân tích toàn diện về các loại tính cách khác nhau (cần phải nghiên cứu thêm).
Có thể cần phải phân tích cơ chế sâu hơn về mã hóa nhân cách.
👍