Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law

Created by
  • Haebom

저자

Shanghai AI Lab, :, Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, Sirui Chen, Xinquan Chen, Jie Cheng, Yu Cheng, Dengke Deng, Yizhuo Ding, Dan Ding, Xiaoshan Ding, Yi Ding, Zhichen Dong, Lingxiao Du, Yuyu Fan, Xinshun Feng, Yanwei Fu, Yuxuan Gao, Ruijun Ge, Tianle Gu, Lujun Gui, Jiaxuan Guo, Qianxi He, Yuenan Hou, Xuhao Hu, Hong Huang, Kaichen Huang, Shiyang Huang, Yuxian Jiang, Shanzhe Lei, Jie Li, Lijun Li, Hao Li, Juncheng Li, Xiangtian Li, Yafu Li, Lingyu Li, Xueyan Li, Haotian Liang, Dongrui Liu, Qihua Liu, Zhixuan Liu, Bangwei Liu, Huacan Liu, Yuexiao Liu, Zongkai Liu, Chaochao Lu, Yudong Lu, Xiaoya Lu, Zhenghao Lu, Qitan Lv, Caoyuan Ma, Jiachen Ma, Xiaoya Ma, Zhongtian Ma, Lingyu Meng, Ziqi Miao, Yazhe Niu, Yuezhang Peng, Yuan Pu, Han Qi, Chen Qian, Xingge Qiao, Jingjing Qu, Jiashu Qu, Wanying Qu, Wenwen Qu, Xiaoye Qu, Qihan Ren, Qingnan Ren, Qingyu Ren, Jing Shao, Wenqi Shao, Shuai Shao, Dongxing Shi, Xin Song, Xinhao Song, Yan Teng, Xuan Tong, Yingchun Wang, Xuhong Wang, Shujie Wang, Xin Wang, Yige Wang, Yixu Wang, Yuanfu Wang, Futing Wang, Ruofan Wang, Wenjie Wang, Yajie Wang, Muhao Wei, Xiaoyu Wen, Fenghua Weng, Yuqi Wu, Yingtong Xiong, Xingcheng Xu, Chao Yang, Yue Yang, Yang Yao, Yulei Ye, Zhenyun Yin, Yi Yu, Bo Zhang, Qiaosheng Zhang, Jinxuan Zhang, Yexin Zhang, Yinqiang Zheng, Hefeng Zhou, Zhanhui Zhou, Pengyu Zhu, Qingzi Zhu, Yubo Zhu, Bowen Zhou

개요

SafeWork-R1은 대규모, 점진적, 안전 중심 강화 학습 후 훈련을 통합하는 SafeLadder 프레임워크를 통해 개발된 최첨단 다중 모달 추론 모델입니다. 기존의 RLHF와 달리, 인간의 선호도를 학습하는 대신, SafeLadder는 SafeWork-R1이 내재적인 안전 추론 및 자기 반성 능력을 개발할 수 있도록 합니다. 안전 관련 벤치마크에서 기본 모델인 Qwen2.5-VL-72B보다 평균 46.54% 향상된 성능을 보이며, GPT-4.1 및 Claude Opus 4와 같은 최고 수준의 독점 모델과 비교하여 최첨단 안전 성능을 제공합니다. 추론 시간 개입 방법 두 가지와 심의적 검색 메커니즘을 구현하여 단계별 검증을 강화했습니다. SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B, SafeWork-R1-Qwen2.5VL-7B 모델도 개발되었으며, 이 모든 모델은 안전성과 기능이 상승적으로 공진화될 수 있음을 보여줍니다.

시사점, 한계점

시사점:
SafeLadder 프레임워크를 통해 안전성과 성능을 동시에 향상시킬 수 있음을 보여줌.
기존 RLHF 방식의 한계를 극복하고, 모델의 내재적 안전 추론 및 자기 반성 능력을 향상시킴.
다양한 기본 모델에 적용 가능한 일반화 가능한 프레임워크임을 증명.
최첨단 안전 성능 달성.
한계점:
SafeLadder 프레임워크의 구체적인 알고리즘 및 구현 세부 사항에 대한 설명 부족.
사용된 안전 관련 벤치마크의 종류와 범위에 대한 자세한 정보 부족.
개발된 모델의 장기적인 안전성 및 신뢰성에 대한 추가적인 평가 필요.
실제 세계 적용에 대한 검증 부족.
👍