Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SafeWork-R1: Coevolución de la seguridad y la inteligencia bajo la Ley AI-45$^{\circ}$

Created by
  • Haebom

Autor

Laboratorio de IA de Shanghai, :, Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, Sirui Chen, Xinquan Chen, Jie Cheng, Yu Cheng, Dengke Deng, Yizhuo Ding, Dan Ding, Xiaoshan Ding, Yi Ding, Zhichen Dong, Lingxiao Du, Yuyu Fan, Ruijun Ge, Tianle Gu, Lujun Gui, Jiaxuan Guo, Qianxi He, Yuenan Hou, Xuhao Hu, Hong Huang, Kaichen Huang, Shiyang Huang, Yuxian Jiang, Shanzhe Lei, Jie Li, Lijun Li, Hao Li, Juncheng Li, Xiangtian Li, Yafu Li, Lingyu Li, Xueyan Li, Haotian Liang, Dongrui Liu, Qihua Liu, Zhixuan Liu, Bangwei Liu, Huacan Liu, Yuexiao Liu, Zongkai Liu, Chaochao Lu, Yudong Lu, Xiaoya Lu, Zhenghao Lu, Qitan Lv, Caoyuan Ma, Jiachen Ma, Xiaoya Ma, Zhongtian Ma, Lingyu Meng, Ziqi Miao, Yazhe Niu, Yuezhang Peng, Yuan Pu, Han Qi, Chen Qian, Xingge Qiao, Jingjing Qu, Jiashu Qu, Wanying Qu, Wenwen Qu, Xiaoye Qu, Qihan Ren, Qingnan Ren, Qingyu Ren, Jing Shao, Wenqi Shao, Shuai Shao, Dongxing Shi, Xin Song, Xinhao Song, Yan Teng, Xuan Tong, Yingchun Wang, Xuhong Wang, Shujie Wang, Ruofan Wang, Wenjie Wang, Yajie Wang, Muhao Wei, Xiaoyu Wen, Fenghua Weng, Yuqi Wu, Yingtong Xiong,

Describir

Presentamos SafeWork-R1, un modelo de inferencia multimodal de vanguardia desarrollado con el marco SafeLadder. SafeLadder integra aprendizaje de refuerzo incremental a gran escala y orientado a la seguridad, tras el entrenamiento, con un verificador multiprincipio. A diferencia de los RLHF existentes, SafeWork-R1 desarrolla capacidades inherentes de razonamiento y autorreflexión relacionadas con la seguridad, lo que genera momentos de revelación sobre seguridad. Supera al modelo base, Qwen2.5-VL-72B, en un promedio del 46,54 % en los parámetros de seguridad y supera a los principales modelos propietarios, como GPT-4.1 y Claude Opus 4. La verificación paso a paso se optimiza mediante dos métodos de intervención y un mecanismo de búsqueda deliberativa durante la inferencia. También se desarrollaron los modelos SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B y SafeWork-R1-Qwen2.5VL-7B, que demuestran que la seguridad y la funcionalidad pueden coevolucionar sinérgicamente.

Takeaways, Limitations

Takeaways:
Demostramos la eficacia del marco SafeLadder, que integra el aprendizaje de refuerzo a gran escala posterior al entrenamiento y un verificador de múltiples principios.
Presentamos un nuevo método para mejorar simultáneamente la seguridad y el rendimiento.
Lograr un desempeño de seguridad que supera a los modelos de primera línea existentes.
Sugerir la posibilidad de desarrollar un modelo con capacidades esenciales de razonamiento y autorreflexión en materia de seguridad.
Verificar la generalización del marco a varios modelos básicos.
Limitations:
Falta de una explicación detallada de la implementación específica y el algoritmo del marco SafeLadder.
Falta de descripción detallada de los puntos de referencia y métricas de evaluación utilizados.
Se necesita una mayor verificación de la seguridad y confiabilidad en entornos del mundo real.
Falta de discusión de los riesgos potenciales y cuestiones éticas del modelo desarrollado.
👍