Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

EigenBench: Một thước đo hành vi so sánh về sự phù hợp giá trị

Created by
  • Haebom

Tác giả

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Lý, Lionel Levine

Phác thảo

EigenBench là một phương pháp đánh giá chuẩn mới để giải quyết vấn đề căn chỉnh giá trị trong AI. Để giải quyết tình trạng thiếu các số liệu định lượng hiện có, phương pháp này đề xuất một phương pháp hộp đen đánh giá so sánh mức độ căn chỉnh giá trị giữa các mô hình ngôn ngữ khác nhau. Phương pháp này lấy đầu vào là một tập hợp các mô hình, một cấu trúc mô tả hệ thống giá trị và một tập dữ liệu kịch bản, sau đó đưa ra một điểm số vectơ định lượng mức độ căn chỉnh của từng mô hình với cấu trúc đã cho. Mỗi mô hình đánh giá đầu ra của các mô hình khác trong các kịch bản khác nhau, và thuật toán EigenTrust tổng hợp các đánh giá này để tạo ra một điểm số phản ánh đánh giá trung bình có trọng số của toàn bộ tập hợp. Phương pháp này được thiết kế để định lượng các đặc điểm có thể khác nhau ngay cả giữa các thẩm phán lý trí, mà không cần dựa vào nhãn câu trả lời đúng. Các thí nghiệm sử dụng các nhân vật gợi ý để kiểm tra độ nhạy của điểm số EigenBench đối với các mô hình hoặc gợi ý cho thấy rằng trong khi phần lớn phương sai được giải thích bởi các gợi ý, thì các phần dư nhỏ định lượng các sai lệch vốn có của chính các mô hình.

Takeaways, Limitations

Takeaways:
Một phương pháp mới để đo lường định lượng sự liên kết của các giá trị AI.
ÁP dụng phương pháp hộp đen không dựa vào nhãn câu trả lời đúng hiện có
Đề Xuất khả năng đo lường xu hướng giá trị của chính mô hình
Limitations:
ẢNh hưởng của lời nhắc dường như lớn hơn ảnh hưởng của mô hình (gây ra câu hỏi về độ chính xác của phép đo khuynh hướng giá trị của chính mô hình).
Bản chất của thuật toán EigenTrust có thể khiến việc diễn giải kết quả trở nên khó khăn.
Tính tổng quát cần được xác minh trên nhiều hệ thống giá trị và tình huống khác nhau.
👍