Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reasoning as an Adaptive Defense for Safety

Created by
  • Haebom

作者

台雲キム、ファヒム・タワル、アディティ・ラグナタン、アビラル・クマール

概要

本論文は安全脆弱性に対する耐性を持つように訓練する方法を研究し、特に適応型推論方式を利用して安全性を向上させることに焦点を当てる。著者らは、トレーニング・アダプティブ・レゾニュア・フォー・セーフティ(TARS)と呼ばれる強化学習アプローチを提示し、これは、チェーン・オブ・ザ・フューツの推論と安全性と作業完了とのバランスのとれた補償信号を使用して、モデルが安全性について推論するように訓練する。 TARSには、(1)軽量のウォームスタートSFTフェーズ、(2)拒否行動を防ぐための有害、無害、曖昧なプロンプトの混合、(3)トレーニング中の推論能力の低下を防ぐための補償関数という3つの主な設計選択肢が含まれています。 TARSで訓練されたモデルは、曖昧なクエリにさらに多くの計算リソースを割り当て、適応動作を示し、安全拒否トレードオフを改善します。また、安全で安全でないプロンプトをよりよく区別し、ホワイトボックスおよびブラックボックス攻撃に対する強力な耐性を獲得します。

Takeaways、Limitations

Takeaways:
TARSは、ジャイルブレイクと有害な要求に対してLLMを訓練するための効果的なオープンレシピを提供します。
適応型推論により、モデルは安全性と作業完了のバランスをとることができます。
TARSで訓練されたモデルは、ホワイトボックスおよびブラックボックス攻撃に対する耐性を向上させます。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍