Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SafeWork-R1 : Coévolution de la sécurité et de l'intelligence selon la loi AI-45$^{\circ}$

Created by
  • Haebom

Auteur

Laboratoire d'IA de Shanghai, :, Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, Sirui Chen, Xinquan Chen, Jie Cheng, Yu Cheng, Dengke Deng, Yizhuo Ding, Dan Ding, Xiaoshan Ding, Yi Ding, Zhichen Dong, Lingxiao Du, Yuyu Fan, Ruijun Ge, Tianle Gu, Lujun Gui, Jiaxuan Guo, Qianxi He, Yuenan Hou, Xuhao Hu, Hong Huang, Kaichen Huang, Shiyang Huang, Yuxian Jiang, Shanzhe Lei, Jie Li, Lijun Li, Hao Li, Juncheng Li, Xiangtian Li, Yafu Li, Lingyu Li, Xueyan Li, Haotian Liang, Dongrui Liu, Qihua Liu, Zhixuan Liu, Bangwei Liu, Huacan Liu, Yuexiao Liu, Zongkai Liu, Chaochao Lu, Yudong Lu, Xiaoya Lu, Zhenghao Lu, Qitan Lv, Caoyuan Ma, Jiachen Ma, Xiaoya Ma, Zhongtian Ma, Lingyu Meng, Ziqi Miao, Yazhe Niu, Yuezhang Peng, Yuan Pu, Han Qi, Chen Qian, Xingge Qiao, Jingjing Qu, Jiashu Qu, Wanying Qu, Wenwen Qu, Xiaoye Qu, Qihan Ren, Qingnan Ren, Qingyu Ren, Jing Shao, Wenqi Shao, Shuai Shao, Dongxing Shi, Xin Song, Xinhao Song, Yan Teng, Xuan Tong, Yingchun Wang, Xuhong Wang, Shujie Wang, Ruofan Wang, Wenjie Wang, Yajie Wang, Muhao Wei, Xiaoyu Wen, Fenghua Weng, Yuqi Wu, Yingtong Xiong,

Contour

Nous présentons SafeWork-R1, un modèle d'inférence multimodal de pointe développé à l'aide du framework SafeLadder. SafeLadder intègre un apprentissage par renforcement post-apprentissage à grande échelle, incrémental et axé sur la sécurité, avec un vérificateur multi-principes. Contrairement aux RLHF existants, SafeWork-R1 développe des capacités inhérentes de raisonnement et d'autoréflexion liées à la sécurité, ce qui se traduit par des moments d'éveil en matière de sécurité. Il surpasse le modèle de référence, Qwen2.5-VL-72B, de 46,54 % en moyenne sur les benchmarks liés à la sécurité et surpasse les principaux modèles propriétaires tels que GPT-4.1 et Claude Opus 4. La vérification étape par étape est améliorée par deux méthodes d'intervention et un mécanisme de recherche délibérative pendant l'inférence. Les modèles SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B et SafeWork-R1-Qwen2.5VL-7B ont également été développés, démontrant que la sécurité et la fonctionnalité peuvent évoluer en synergie.

Takeaways, Limitations

Takeaways:
Nous démontrons l’efficacité du cadre SafeLadder, qui intègre un apprentissage par renforcement à grande échelle après la formation et un vérificateur multi-principes.
Présentation d'une nouvelle méthode pour améliorer simultanément la sécurité et les performances.
Atteindre des performances de sécurité qui surpassent les modèles haut de gamme existants.
Suggérant la possibilité de développer un modèle doté de capacités essentielles de raisonnement et d’autoréflexion en matière de sécurité.
Vérifier la généralisabilité du cadre à divers modèles de base.
Limitations:
Manque d'explication détaillée de l'implémentation spécifique et de l'algorithme du framework SafeLadder.
Manque de description détaillée des repères et des mesures d’évaluation utilisés.
Des vérifications supplémentaires de la sécurité et de la fiabilité dans des environnements réels sont nécessaires.
Manque de discussion sur les risques potentiels et les questions éthiques du modèle développé.
👍