Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ƯớC tính Rủi ro Biên giới Trường hợp Xấu nhất của LLM Trọng lượng Mở

Created by
  • Haebom

Tác giả

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Phác thảo

Bài báo này nghiên cứu rủi ro trong trường hợp xấu nhất khi triển khai mô hình GPT nguồn mở (gpt-oss). Để tối đa hóa khả năng của gpt-oss trong cả lĩnh vực sinh học và an ninh mạng, chúng tôi sử dụng kỹ thuật tinh chỉnh độc hại (MFT). Để tối đa hóa rủi ro sinh học, chúng tôi đã chọn các tác vụ tạo mối đe dọa và đào tạo gpt-oss trong môi trường học tăng cường duyệt web. Để tối đa hóa rủi ro an ninh mạng, chúng tôi đã đào tạo gpt-oss trong môi trường mã hóa tác nhân để giải quyết vấn đề Capture-The-Flag (CTF). Chúng tôi đã so sánh mô hình MFT với các mô hình ngôn ngữ quy mô lớn khác có trọng số mở và đóng. So với các mô hình đóng, gpt-oss của MFT có hiệu suất kém hơn OpenAI o3, đạt điểm dưới mức Chuẩn bị cao, về cả rủi ro sinh học và an ninh mạng. So với các mô hình mở, gpt-oss cải thiện rủi ro sinh học một chút, nhưng không đáng kể. Những kết quả này đã đóng góp vào các quyết định triển khai mô hình và chúng tôi hy vọng rằng phương pháp MFT sẽ cung cấp hướng dẫn hữu ích để đánh giá rủi ro của các triển khai mô hình có trọng số mở trong tương lai.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày một phương pháp mới để đánh giá rủi ro tiềm ẩn của các mô hình ngôn ngữ quy mô lớn nguồn mở bằng cách tận dụng kỹ thuật tinh chỉnh độc hại (MFT). MFT có thể giúp chúng tôi dự đoán chính xác hơn mức độ rủi ro thực tế và góp phần phát triển các chiến lược triển khai mô hình an toàn. Kết quả của nghiên cứu này cung cấp thông tin hữu ích cho việc ra quyết định liên quan đến việc triển khai mô hình nguồn mở.
Limitations: Mức độ rủi ro được đánh giá thông qua MFT có thể không phản ánh hoàn toàn mức độ rủi ro trong thế giới thực. Do những hạn chế của các nhiệm vụ và môi trường được sử dụng trong đánh giá, có khả năng rủi ro trong các tình huống thực tế có thể bị đánh giá thấp hoặc đánh giá quá cao. Cần có thêm nghiên cứu xem xét các kịch bản đa dạng và thực tế hơn.
👍