Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bảng xếp hạng độ bền vững LLM v1 --Báo cáo kỹ thuật

Created by
  • Haebom

Tác giả

Pierre Peigne - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe

Phác thảo

PRISM Eval đã trình bày bảng xếp hạng độ mạnh mẽ của LLM và nộp báo cáo kỹ thuật cho Hội nghị thượng đỉnh hành động AI Paris. Báo cáo này giới thiệu Công cụ thu thập hành vi PRISM Eval (BET), một hệ thống AI thực hiện thử nghiệm đối kháng tự động thông qua tối ưu hóa đối kháng động. BET đã đạt tỷ lệ tấn công thành công (ASR) 100% trên 37 trong số 41 LLM hiện đại. Ngoài các đánh giá đạt/không đạt đơn giản, chúng tôi đã đề xuất một thước đo độ mạnh mẽ chi tiết ước tính số lần thử trung bình cần thiết để tạo ra hành vi có hại, chứng minh sự khác biệt hơn 300 lần về độ khó tấn công giữa các mô hình. Chúng tôi cũng giới thiệu phân tích lỗ hổng cơ sở để xác định các kỹ thuật bẻ khóa hiệu quả nhất cho các loại rủi ro cụ thể. Đánh giá hợp tác này với các bên thứ ba đáng tin cậy từ Mạng lưới An toàn AI cung cấp một con đường thiết thực hướng tới đánh giá độ mạnh mẽ phân tán trên toàn cộng đồng.

Takeaways, Limitations

_____T211637____-:
Chúng tôi chứng minh rằng hệ thống kiểm tra đối kháng tự động (BET) dựa trên tối ưu hóa đối kháng động có thể đánh giá hiệu quả lỗ hổng của LLM.
Chúng tôi đo lường định lượng sự khác biệt đáng kể về mức độ mạnh mẽ của LLM trên các mô hình và trình bày các chỉ số mạnh mẽ chi tiết.
Bằng cách phân tích các kỹ thuật bẻ khóa hiệu quả cho các loại rủi ro cụ thể, chúng tôi cung cấp các hướng cụ thể để phát triển LLM và tăng cường bảo mật.
Chúng tôi góp phần đảm bảo an toàn LLM dựa vào cộng đồng bằng cách đề xuất một mô hình cộng tác để đánh giá độ mạnh phân tán.
_____T211638____-:
Cho đến nay chỉ có 41 LLM được đánh giá và cần phải đánh giá thêm nhiều mô hình nữa.
Cần phải phân tích thêm đối với bốn LLM có tỷ lệ tấn công thành công của BET không đạt 100%.
Cần có thêm nghiên cứu về khả năng khái quát hóa và hạn chế của các số liệu đo lường độ mạnh chi tiết được đề xuất.
Hiệu quả của một kỹ thuật bẻ khóa cụ thể có thể khác nhau tùy thuộc vào cấu trúc và thiết kế cụ thể của LLM, đòi hỏi phải phân tích toàn diện hơn.
👍