Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SafeWork-R1: Sự phát triển đồng thời của An toàn và Trí tuệ theo Luật AI-45$^{\circ}$

Created by
  • Haebom

Tác giả

Phòng thí nghiệm AI Thượng Hải, :, Yichen Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, Sirui Chen, Xinquan Chen, Jie Cheng, Yu Cheng, Dengke Deng, Yizhuo Ding, Dan Ding, Xiaoshan Ding, Yi Ding, Zhichen Dong, Lingxiao Du, Yuyu Fan, Ruijun Ge, Tianle Gu, Lujun Gui, Jiaxuan Guo, Qianxi He, Yuenan Hou, Xuhao Hu, Hong Huang, Kaichen Huang, Shiyang Huang, Yuxian Jiang, Shanzhe Lei, Jie Li, Lijun Li, Hao Li, Junchen Li, Xiangtian Li, Yafu Li, Lingyu Li, Xueyan Li, Haotian Liang, Dongrui Liu, Qihua Liu, Zhixuan Liu, Bangwei Liu, Huacan Liu, Yuexiao Liu, Zongkai Liu, Chaochao Lu, Yudong Lu, Xiaoya Lu, Zhenghao Lu, Qitan Lv, Caoyuan Ma, Jiachen Ma, Xiaoya Ma, Zhongtian Ma, Lingyu Meng, Ziqi Miao, Yazhe Niu, Yuezhang Peng, Yuan Pu, Han Qi, Chen Qian, Xingge Qiao, Jingjing Qu, Jiashu Qu, Wanying Qu, Wenwen Qu, Xiaoye Qu, Qihan Ren, Qingnan Ren, Qingyu Ren, Jing Shao, Wenqi Shao, Shuai Shao, Dongxing Shi, Xin Song, Xinao Song, Yan Teng, Xuân Tông, Yingchun Wang, Xuhong Wang, Shujie Wang, Ruofan Wang, Wenjie Wang, Yajie Wang, Muhao Wei, Xiaoyu Wen, Fenghua Weng, Yuqi Wu, Yingtong Xiong,

Phác thảo

Chúng tôi xin giới thiệu SafeWork-R1, một mô hình suy luận đa phương thức tiên tiến được phát triển dựa trên nền tảng SafeLadder. SafeLadder tích hợp phương pháp học tăng cường quy mô lớn, hướng đến an toàn sau đào tạo với một bộ kiểm chứng đa nguyên tắc. Không giống như các mô hình RLHF hiện có, SafeWork-R1 phát triển khả năng suy luận liên quan đến an toàn và khả năng tự phản ánh, tạo ra những khoảnh khắc "aha" về an toàn. Mô hình này vượt trội hơn mô hình cơ sở, Qwen2.5-VL-72B, trung bình 46,54% về các điểm chuẩn liên quan đến an toàn và vượt trội hơn các mô hình độc quyền hàng đầu như GPT-4.1 và Claude Opus 4. Việc kiểm chứng từng bước được tăng cường thông qua hai phương pháp can thiệp và cơ chế tìm kiếm cân nhắc trong quá trình suy luận. Các mô hình SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B và SafeWork-R1-Qwen2.5VL-7B cũng được phát triển, chứng minh rằng tính an toàn và chức năng có thể cùng phát triển một cách hiệp đồng.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh tính hiệu quả của khuôn khổ SafeLadder, tích hợp quá trình đào tạo tăng cường sau đào tạo trên quy mô lớn và trình xác minh đa nguyên tắc.
Trình bày phương pháp mới giúp cải thiện đồng thời cả tính an toàn và hiệu suất.
ĐạT được hiệu suất an toàn vượt trội hơn các mẫu xe hàng đầu hiện có.
Đề Xuất khả năng phát triển một mô hình có khả năng suy luận và tự phản biện cần thiết về vấn đề an toàn.
Xác minh khả năng tổng quát hóa của khuôn khổ cho nhiều mô hình cơ bản khác nhau.
Limitations:
Thiếu giải thích chi tiết về cách triển khai và thuật toán cụ thể của khung SafeLadder.
Thiếu mô tả chi tiết về các tiêu chuẩn và số liệu đánh giá được sử dụng.
Cần phải xác minh thêm về tính an toàn và độ tin cậy trong môi trường thực tế.
Thiếu thảo luận về những rủi ro tiềm ẩn và các vấn đề đạo đức của mô hình đã phát triển.
👍