PRISM Eval đã trình bày bảng xếp hạng độ mạnh mẽ của LLM và nộp báo cáo kỹ thuật cho Hội nghị thượng đỉnh hành động AI Paris. Báo cáo này giới thiệu Công cụ thu thập hành vi PRISM Eval (BET), một hệ thống AI thực hiện thử nghiệm đối kháng tự động thông qua tối ưu hóa đối kháng động. BET đã đạt tỷ lệ tấn công thành công (ASR) 100% trên 37 trong số 41 LLM hiện đại. Ngoài các đánh giá đạt/không đạt đơn giản, chúng tôi đã đề xuất một thước đo độ mạnh mẽ chi tiết ước tính số lần thử trung bình cần thiết để tạo ra hành vi có hại, chứng minh sự khác biệt hơn 300 lần về độ khó tấn công giữa các mô hình. Chúng tôi cũng giới thiệu phân tích lỗ hổng cơ sở để xác định các kỹ thuật bẻ khóa hiệu quả nhất cho các loại rủi ro cụ thể. Đánh giá hợp tác này với các bên thứ ba đáng tin cậy từ Mạng lưới An toàn AI cung cấp một con đường thiết thực hướng tới đánh giá độ mạnh mẽ phân tán trên toàn cộng đồng.