Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự thiên vị trong việc ra quyết định đối với các tình huống khó xử về mặt đạo đức của AI: Một nghiên cứu so sánh giữa ChatGPT và Claude

Created by
  • Haebom

Tác giả

Yile Yan, Yuqi Zhu, Wentao Xu

Phác thảo

Nghiên cứu này đánh giá một cách có hệ thống khả năng ra quyết định đạo đức và những sai lệch tiềm ẩn của chín mô hình ngôn ngữ quy mô lớn (LLM) phổ biến. Chúng tôi đánh giá các sở thích đạo đức, độ nhạy, tính ổn định và các mô hình cụm của các mô hình qua 50.400 thử nghiệm, bao gồm bốn kịch bản tình huống tiến thoái lưỡng nan về đạo đức (bảo vệ so với có hại) liên quan đến các thuộc tính được bảo vệ, bao gồm các kết hợp thuộc tính đơn lẻ và liên thuộc tính. Kết quả cho thấy sự sai lệch đáng kể đối với các thuộc tính được bảo vệ trên tất cả các mô hình, với các sở thích khác nhau tùy theo loại mô hình và bối cảnh tình huống tiến thoái lưỡng nan. Cụ thể, các LLM nguồn mở thể hiện sự ưu tiên mạnh mẽ hơn đối với các nhóm thiểu số và độ nhạy cảm cao hơn trong các tình huống có hại, trong khi các mô hình nguồn đóng có tính chọn lọc hơn trong các tình huống bảo vệ và có xu hướng ưu tiên các nhóm chính thống. Hơn nữa, hành vi đạo đức khác nhau giữa các tình huống tiến thoái lưỡng nan. Các LLM duy trì các mô hình nhất quán trong các tình huống bảo vệ, nhưng đưa ra các quyết định đa dạng hơn và đòi hỏi nhận thức cao hơn trong các tình huống có hại. Hơn nữa, các mô hình thể hiện sự sai lệch đạo đức rõ rệt hơn trong các bối cảnh liên thuộc tính so với các bối cảnh thuộc tính đơn lẻ, cho thấy rằng các đầu vào phức tạp bộc lộ những sai lệch sâu sắc hơn. Những kết quả này nhấn mạnh nhu cầu đánh giá đa chiều và theo ngữ cảnh về hành vi đạo đức trong LLM, đồng thời đề xuất phương pháp đánh giá và tiếp cận có hệ thống để hiểu và giải quyết vấn đề công bằng trong quá trình ra quyết định của LLM.

Takeaways, Limitations

Takeaways:
Cung cấp một khuôn khổ đánh giá có hệ thống cho việc ra quyết định đạo đức trong LLM
Xác định sự khác biệt về định kiến ​​đạo đức giữa các chương trình LLM nguồn mở và nguồn đóng (Các chương trình nguồn mở có sự ưu ái hơn đối với các nhóm chưa được phục vụ đầy đủ)
Phân tích những thay đổi về hành vi đạo đức ở sinh viên LLM theo loại tình huống khó xử và sự kết hợp thuộc tính (độ lệch nghiêm trọng hơn trong các sự kết hợp thuộc tính chéo)
Hướng dẫn cải thiện tính công bằng của LLM
Limitations:
Những hạn chế của các kịch bản tiến thoái lưỡng nan được sử dụng trong đánh giá
Hạn chế khả năng khái quát hóa kết quả phân tích đối với các mô hình LLM cụ thể.
Thiếu sự cân nhắc đến tính chủ quan và sự đa dạng của các phán đoán đạo đức
Cần nghiên cứu thêm để xác định khả năng áp dụng trong thế giới thực.
👍