Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

Created by
  • Haebom

作者

Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu

概要

この論文は、安全に整列した大規模言語モデル(LLM)が有害な微調整攻撃に対して脆弱であることを指摘しています。少量の有害データが微調整データセットに混在していると、LLMの安全な位置合わせが壊れる可能性があります。従来の防衛技術は、特定の訓練ハイパーパラメータ(高い学習率や多くの訓練エポック)の下では効果がないことを示しました。したがって、この論文では、微調整ステップのトレーニングハイパーパラメータとは無関係の、微調整後ステップの解決策であるAntidoteを提案します。 Antidoteは、有害なパラメータを削除して有害な行動から有害なモデルを回復する原理に基づいています。有害なコンテンツの生成に責任がある有害な重みを排除するワンタイム剪定ステップを導入し、有害スコアを減らしながら下流の作業の精度を維持することを実験的に示しました。コードはGithubで公開されています。

Takeaways、Limitations

Takeaways:微調整ステップのハイパーパラメータに関係なく有害な微調整攻撃からLLMを保護するための新しい防御技術(Antidote)を提示します。簡単な方法で有害スコアの削減と下流の作業精度の維持を達成。
Limitations: Antidoteの一般的な効果とさまざまな種類の有害なデータの堅牢性に関する追加の研究が必要です。特定の種類の攻撃やハイパーパラメータの組み合わせに対する脆弱性の存在の可能性。剪定過程における精度の低下の可能性
👍