Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates

Created by
  • Haebom

作者

Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park

X-Teaming Evolutionary M2S:自動化されたフレームワークによるM2Sテンプレートの発見と最適化

概要

この論文は、繰り返しのRed-Teamingを1つの構造化されたプロンプトに圧縮するMulti-turn-to-single-turn(M2S)アプローチについて、既存の手動で作成されたテンプレートの制限を克服するために言語モデルベースの進化を介してM2Sテンプレートを自動的に見つけて最適化するX-Teaming Evolutionこのフレームワークは12のソースでスマートサンプリングを実行し、StrongREJECTに触発されたLLM-as-judgeを使用して完全な監査ログを記録します。成功しきい値を$\theta = 0.70$に設定し、第5世代の進化を通じて2つの新しいテンプレート群を得て、GPT-4.1で44.8%の全体成功率(103/230)を達成しました。さらに、構造的利得はオブジェクトによって異なり、プロンプトの長さとスコアの間に正の相関関係があることがわかりました。

Takeaways、Limitations

Takeaways:
構造レベルのナビゲーションが、より強力なシングルターンプローブのための再現可能な方法であることを証明しました。
しきい値補正とクロスモデル評価の重要性を強調します。
プロンプトの長さとスコアの間の肯定的な関係を発見し、長さ認識評価の必要性を提起した。
Limitations:
提示された方法論は他のモデルに対して同じ性能を保証しないかもしれない。
最適化されたテンプレートの一般化の可能性に関する追加の研究が必要です。
フレームワークのすべての詳細は、提供された要約で理解するのが難しいです。
👍