Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Oyster-I: Más allá del rechazo: Alineación de seguridad constructiva para modelos lingüísticos responsables

Created by
  • Haebom

Autor

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Jialing Tao, Hui Xue

Describir

Este artículo presenta "Alineación Constructiva de Seguridad (ASC)", un novedoso paradigma de alineación de seguridad que considera los riesgos derivados no solo de usuarios maliciosos, sino también de usuarios vulnerables que experimentan angustia psicológica. A diferencia de los mecanismos de seguridad existentes, que simplemente rechazan el comportamiento malicioso, ASC predice las respuestas del usuario, ajusta los límites de riesgo y transforma la seguridad en un proceso de construcción de confianza mediante un control de inferencia interpretable. Implementado en un modelo llamado Oyster-I (Oy1), ASC logra el mayor nivel de seguridad entre los modelos abiertos existentes, manteniendo un alto rendimiento general. Su rendimiento se acerca al de GPT-5 en las pruebas de referencia compositivas y alcanza una robustez comparable a la de GPT-o1 en el conjunto de datos de jailbreak Strata-Sword. Este artículo publica el modelo, el código y las pruebas de referencia de Oy1 para respaldar el desarrollo de IA responsable y centrado en el usuario.

Takeaways, Limitations

Takeaways:
Un nuevo paradigma de seguridad que considera no sólo a los usuarios maliciosos sino también a los usuarios con vulnerabilidades psicológicas.
Generar confianza y promover interacciones positivas con los usuarios a través de un enfoque de seguridad centrado en la orientación en lugar del simple rechazo.
Apoyar el desarrollo responsable de la IA mediante la divulgación del modelo Oy1 y materiales relacionados, que logran simultáneamente alta seguridad y rendimiento.
Una nueva perspectiva sobre el desarrollo de IA centrada en el usuario
Limitations:
Se necesitan más investigaciones sobre la eficacia y generalización del CSA.
Es necesaria una consideración exhaustiva de los distintos tipos de angustia psicológica y de las situaciones de los usuarios.
Se requiere una explicación detallada y la divulgación de los datos de los resultados de la comparación con GPT-5, GPT-o1, etc.
Es necesario un seguimiento continuo de la seguridad y estabilidad a largo plazo del modelo Oy1.
👍