Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning

Created by
  • Haebom

作者

Gabriel J. Perin, Runjin Chen, Xuxi Chen, Nina ST Hirata, Zhangyang Wang, Junyuan Hong

概要

この論文は、大規模言語モデル(LLM)の安全性の問題、特に社会的に有害な質問に対する回答に関連する問題を扱います。既存の安全性向上の努力にもかかわらず、整列されたモデルは、さらなる微調整によって安全性が損なわれる可能性があることを実験的に証明する。この脆弱性は、LLMパラメータ内の安全性に関連する低次元サブスペースの微調整に対する感度に起因することを明らかにし、この洞察に基づいて新しい訓練を必要としない方法である低次元外挿法(Low-Rank Extrapolation、LoX)を提案する。 LoXは、位置合わせされたLLMの安全部分空間を外挿して安全性の堅牢性を向上させます。実験の結果、LoXは、有害なまたは悪意のある微調整攻撃に対する堅牢性を大幅に向上させ、同時に新しい作業に対するモデルの適応性を維持することを示した。たとえば、LoXは有害または悪意のある微調整攻撃に対する攻撃成功率(ASR)を11%〜54%絶対に減少させます。パラメータのASR地形を調べることによって、LoXの成功は、外挿がLLMパラメータをより平坦な領域に移動させ、摂動に対する感度を低下させるためであると説明する。コードはgithub.com/VITA-Group/LoX에서利用可能です。

Takeaways、Limitations

Takeaways:
LLMの安全性を向上させるための新しい訓練を必要としない方法であるLoXの提示。
LoXを介して有害なまたは悪意のある微調整攻撃に対する堅牢性を大幅に向上させることができることを実験的に証明。
LLMの安全性 脆弱性の根本原因を低次元部分空間の敏感性に究明。
LLMの安全性向上研究における新しい方向性の提示
Limitations:
LoXのパフォーマンスは、特定のデータセットとモデルの実験結果に基づいており、一般化の可能性に関するさらなる研究が必要です。
さまざまな種類の攻撃と微調整方法に対するLoXの有効性検証が必要
LoXの計算コストと適用性に関する追加分析の必要性
👍