Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Oyster-I: Vượt ra ngoài sự từ chối -- Sự liên kết an toàn mang tính xây dựng cho các mô hình ngôn ngữ có trách nhiệm

Created by
  • Haebom

Tác giả

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Jialing Tao, Hui Xue

Phác thảo

Bài báo này trình bày "Constructive Safety Alignment (CSA)", một mô hình căn chỉnh an toàn mới, xem xét các rủi ro phát sinh không chỉ từ người dùng có ý đồ xấu mà còn từ những người dùng dễ bị tổn thương đang trải qua những căng thẳng tâm lý. Không giống như các cơ chế an toàn hiện có chỉ đơn thuần từ chối hành vi có ý đồ xấu, CSA dự đoán phản ứng của người dùng, tinh chỉnh các ranh giới rủi ro và biến an toàn thành một quy trình xây dựng lòng tin thông qua kiểm soát suy luận có thể diễn giải. Được triển khai trên mô hình Oyster-I (Oy1), CSA đạt được mức độ an toàn cao nhất trong số các mô hình mở hiện có, đồng thời vẫn duy trì hiệu suất chung cao. Nó hoạt động gần với GPT-5 trên các điểm chuẩn thành phần và đạt được độ mạnh mẽ tương đương với GPT-o1 trên tập dữ liệu bẻ khóa Strata-Sword. Bài báo này phát hành mô hình, mã và điểm chuẩn Oy1 để hỗ trợ phát triển AI có trách nhiệm và lấy người dùng làm trung tâm.

Takeaways, Limitations

Takeaways:
Một mô hình bảo mật mới không chỉ xem xét đến người dùng có ý đồ xấu mà còn cả người dùng có lỗ hổng tâm lý.
Xây dựng lòng tin và thúc đẩy tương tác tích cực với người dùng thông qua phương pháp tiếp cận an toàn lấy hướng dẫn làm trung tâm thay vì chỉ đơn thuần từ chối.
Hỗ trợ phát triển AI có trách nhiệm thông qua việc công bố mô hình Oy1 và các tài liệu liên quan, đồng thời đạt được hiệu suất và độ an toàn cao.
Một góc nhìn mới về phát triển AI lấy người dùng làm trung tâm
Limitations:
Cần có thêm nghiên cứu về hiệu quả và khả năng tổng quát hóa của CSA.
Cần phải xem xét toàn diện các loại căng thẳng tâm lý và tình huống của người dùng.
Cần có lời giải thích chi tiết và công bố dữ liệu về kết quả so sánh với GPT-5, GPT-o1, v.v.
Việc theo dõi liên tục tính an toàn và ổn định lâu dài của mô hình Oy1 là cần thiết.
👍