Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Oyster-I : Au-delà du refus – Alignement constructif de sécurité pour des modèles de langage responsables

Created by
  • Haebom

Auteur

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Jialing Tao, Hui Xue

Contour

Cet article présente l'« Alignement de sécurité constructif » (CSA), un nouveau paradigme d'alignement de sécurité qui prend en compte les risques liés non seulement aux utilisateurs malveillants, mais aussi aux utilisateurs vulnérables en détresse psychologique. Contrairement aux mécanismes de sécurité existants qui rejettent purement et simplement les comportements malveillants, l'ASC prédit les réponses des utilisateurs, affine les limites de risque et transforme la sécurité en un processus de renforcement de la confiance grâce à un contrôle d'inférence interprétable. Implémenté sur un modèle appelé Oyster-I (Oy1), l'ASC atteint le plus haut niveau de sécurité parmi les modèles ouverts existants tout en maintenant des performances générales élevées. Ses performances sont proches de celles de GPT-5 sur les benchmarks de composition et sa robustesse est comparable à celle de GPT-o1 sur le jeu de données de jailbreak Strata-Sword. Cet article publie le modèle, le code et les benchmarks d'Oy1 pour soutenir un développement d'IA responsable et centré sur l'utilisateur.

Takeaways, Limitations

Takeaways:
Un nouveau paradigme de sécurité qui prend en compte non seulement les utilisateurs malveillants mais également les utilisateurs présentant des vulnérabilités psychologiques.
ÉTablir la confiance et promouvoir des interactions positives avec les utilisateurs grâce à une approche de sécurité centrée sur l’orientation plutôt que sur un simple rejet.
Soutenir le développement responsable de l'IA grâce à la divulgation du modèle Oy1 et des matériaux associés, qui atteignent simultanément une sécurité et des performances élevées.
Une nouvelle perspective sur le développement de l'IA centrée sur l'utilisateur
Limitations:
Des recherches supplémentaires sont nécessaires sur l’efficacité et la généralisabilité de l’ASC.
Une prise en compte globale des différents types de détresse psychologique et des situations des utilisateurs est nécessaire.
Une explication détaillée et une divulgation des données des résultats de comparaison avec GPT-5, GPT-o1, etc. sont requises.
Une surveillance continue de la sécurité et de la stabilité à long terme du modèle Oy1 est nécessaire.
👍