本論文は安全脆弱性に対する耐性を持つように訓練する方法を研究し、特に適応型推論方式を利用して安全性を向上させることに焦点を当てる。著者らは、トレーニング・アダプティブ・レゾニュア・フォー・セーフティ(TARS)と呼ばれる強化学習アプローチを提示し、これは、チェーン・オブ・ザ・フューツの推論と安全性と作業完了とのバランスのとれた補償信号を使用して、モデルが安全性について推論するように訓練する。 TARSには、(1)軽量のウォームスタートSFTフェーズ、(2)拒否行動を防ぐための有害、無害、曖昧なプロンプトの混合、(3)トレーニング中の推論能力の低下を防ぐための補償関数という3つの主な設計選択肢が含まれています。 TARSで訓練されたモデルは、曖昧なクエリにさらに多くの計算リソースを割り当て、適応動作を示し、安全拒否トレードオフを改善します。また、安全で安全でないプロンプトをよりよく区別し、ホワイトボックスおよびブラックボックス攻撃に対する強力な耐性を獲得します。