Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers

Created by
  • Haebom

作者

Divij Handa, Zehua Zhang, Amir Saeidi, Shrinidhi Kumbhar, Md Nayem Uddin, Aswin RRV, Chitta Baral

概要

本論文は、大規模言語モデル(LLM)の安全性の向上にもかかわらず、モデルの推論能力の発展が新しいタイプの脱獄攻撃に脆弱性を引き起こすという逆説的な問題を提起する。特に、ユーザーが定義した複雑な暗号を復号する能力が向上し、これを悪用した脱獄攻撃(ACE、LACE)に対してより脆弱になることを示した。 CipherBenchというベンチマークを通じてこの脆弱性を評価し、LLMの復号能力とLACE攻撃成功率との相関関係を実験的に立証した。

Takeaways、Limitations

Takeaways:
LLMの推論能力の向上は,新しい形態の脱獄攻撃に対する脆弱性を増加させる
カスタムパスワードベースの攻撃は、既存の安全トレーニングで防御するのが難しく、新しい防御メカニズムが必要です。
CipherBenchを使用すると、LLMの復号化能力を評価し、脆弱性を分析できます。
Limitations:
実験に使用された特定のモデル(Gpt-oss-20b)に限定された結果であり得、他のモデルに対する一般化が必要である。
LACE攻撃に対する具体的な防御メカニズムの提案は含まれていない。
暗号化方式と攻撃シナリオの多様性をさらに拡張する必要がある。
👍