Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Oyster-I:Beyond Refusal - Constructive Safety Alignment for Responsible Language Models

Created by
  • Haebom

作者

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yong Lin Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue

概要

この論文は、悪意のあるユーザーだけでなく、心理的苦痛に苦しむ脆弱なユーザーから発生するリスクまで考慮する新しい安全アライメントパラダイムである「構成的安全アライメント(CSA)」を提示します。既存の安全メカニズムが悪意のある行為を守るために焦点を当てて単に拒否するのとは異なり、CSAはユーザーの反応を予測し、リスク境界を微調整し、解釈可能な推論制御を通じて安全を信頼構築プロセスに変換します。 Oyster-I(Oy1)というモデルに実装されたCSAは、既存のオープンモデルの中で最高レベルの安全性を達成しながら高い一般的な性能を維持し、構成的なベンチマークでGPT-5に近いレベルの成果を示し、Strata-Sword脱獄データセットではGPT-o1レベルに近い堅牢性を示しました。本論文はOy1モデル、コード、ベンチマークを公開し、責任感があり、ユーザー中心のAI開発を支援します。

Takeaways、Limitations

Takeaways:
悪意のあるユーザーだけでなく、心理的な脆弱性を持つユーザーを考慮した新しい安全パラダイムの提示
単純な拒否ではなく、ガイダンス中心の安全アプローチによるユーザーとの信頼の構築と積極的な対話
高い安全性と性能を同時に達成したOy1モデルおよび関連資料公開による責任感のあるAI開発支援
ユーザー中心のAI開発の新しい視点を提示
Limitations:
CSAの有効性と一般化の可能性に関するさらなる研究が必要
さまざまな種類の心理的苦痛とユーザー状況の包括的な考慮が必要
GPT-5、GPT-o1などとの比較結果の具体的な説明とデータ開示が必要
Oy1モデルの長期安全性と安定性の継続的な監視が必要
👍