Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs

Created by
  • Haebom

作者

Haoming Yang, Ke Ma, Xiaojun Jia, Yingfei Sun, Qianqian Xu, Qingming Huang

概要

本論文は、大規模言語モデル(LLM)の安全メカニズムを迂回する新しい脱獄攻撃フレームワークであるICRTを提案する。既存の研究がランダムな最適化または手動設計に依存するのとは異なり、ICRTは人間の認知のヒューリスティックと偏向(単純化効果、関連性偏向)を利用して悪意のあるプロンプトの複雑さを減らし、意味的な整合性を高め、有害な出力を効果的に誘導します。また、Elo、HodgeRank、Rank Centralityなどのランキング集約方法を使用して生成されたコンテンツの有害性を総合的に定量化する新しいランキングベースの有害性評価指標を提示します。実験の結果、ICRTは主要LLMの安全メカニズムを一貫して迂回し、リスクの高いコンテンツを生成し、脱獄攻撃の危険性に関する洞察を提供し、より強力な防御戦略の開発に貢献します。

Takeaways、Limitations

Takeaways:
人間認知のヒューリスティックとバイアスを活用した新しい脱獄攻撃フレームワークICRT提示。
従来のバイナリ成功/失敗方式を超えたランキングベースの有害性評価指標の提案
LLMの安全メカニズムの迂回とリスクの高いコンテンツの生成による脱獄攻撃の危険性に関する実用的な洞察
より強力なLLM安全防御戦略の開発に貢献
Limitations:
提案されたフレームワークの一般化の可能性に関するさらなる研究が必要です。
様々なLLMと有害性の定義に対する幅広い実験が必要
ICRTの効果的な防御戦略の具体的な提案の欠如
👍