Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs

Created by
  • Haebom

作者

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

概要

この論文は、大規模言語モデル(LLM)の積極的なテストに必要な手作業の負担を大幅に減らすために、多回の敵対的な「脱獄」プロンプトを単一の回答クエリに統合する新しいフレームワークを提示します。多回目の人間脱獄は高い攻撃成功率を示していますが、かなりの人的資源と時間が必要です。この論文で提案されている多回差 - 単回回(M2S)法(Hyphenize、Numberize、Pythonize)は、多回差対話を構造化された単一の回差プロンプトに体系的に再フォーマットします。反復的な相互作用を排除するにもかかわらず、これらのプロンプトは敵対的な有効性を維持し、しばしば改善します。 Multi-turn Human Jailbreak(MHJ)データセットの広範な評価では、M2Sメソッドは複数の最先端LLMで70.6%から95.9%の攻撃成功率を達成します。驚くべきことに、単一回差プロンプトは、元の多回差攻撃よりも最大17.5%p高いパフォーマンスを示し、平均トークン使用量を半分以上削減します。さらなる分析によれば、列挙型やコードなどの構造に悪意のある要求を含めることは、「文脈的盲点」を利用して基本的な安全装置と外部入出力フィルタの両方をバイパスします。 M2Sフレームワークは、多重会話を簡潔な単一回差プロンプトに変換することで、大規模な敵対的テストのための拡張可能なツールを提供し、現代LLM防衛の重要な弱点を明らかにします。

Takeaways、Limitations

Takeaways:
複数回の敵対攻撃を単一の回差に効率的に変換する方法を提示し、LLMの敵対テストの効率を大幅に向上させました。
単一回差プロンプトが多回車プロンプトより高い攻撃成功率を達成することを示し、既存の防御メカニズムの脆弱性を明らかにした。
LLMの「文脈的盲点」を用いた新たな攻撃手法を提示した。
大規模な敵対テストのための拡張可能なフレームワークを提供します。
Limitations:
提示されたM2S法の一般化の可能性に関するさらなる研究が必要である。
特定のタイプのLLMまたは特定のタイプの敵対攻撃に対してのみ有効である可能性があります。
M2Sメソッドは、あらゆるタイプの脱獄攻撃に有効ではない可能性があります。より多様な攻撃タイプの評価が必要です。
👍