Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology

Created by
  • Haebom

作者

Aideen Fay, In es Garc ia-Redondo, Qiquan Wang, Haim Dubossarsky, Anthea Monod

概要

この研究は、大規模言語モデル(LLM)の内部表現空間への敵対的な入力の影響を分析するために、位相データ分析ツールである持続的同型思想(PH)を提案します。従来の解釈可能な方法論は、線形的方向または孤立した特徴に集中する限界を克服し、高次元で非線形的な関係の幾何学を特定することに焦点を当てています。間接プロンプト注入とバックドア微調整を含む2つの敵対的な環境で、6つの最先端モデルを分析して、敵対的影響の一貫した位相特性を識別します。研究は、敵対的な入力が潜在的な空間の「位相圧縮」を引き起こし、構造を単純化することを明らかにした。

Takeaways、Limitations

Takeaways:
PHを使用してLLMの敵対的な影響を理解するための新しいフレームワークの提示。
様々なアーキテクチャとモデルサイズにおける「位相圧縮」と呼ばれる一貫した敵対的影響の特徴を発見
層間で統計的に堅牢で、区別力が高く、敵対的効果の出現と伝播に関する解釈可能な洞察を提供します。
LLMの表現の変化の基本的な不変量を明らかにする既存の解​​釈可能性の方法論を補完。
Limitations:
具体的なLimitationsは論文の要約に記載されていない。 (論文原文を参照する必要)
👍