Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models

Created by
  • Haebom

作者

Qiming Guo, Jinwen Tang, Xingran Huang

概要

この論文では、大規模言語モデル(LLM)の新しいセキュリティ脅威である広告挿入攻撃(AEA)を紹介します。 AEAは、サードパーティのサービス展開プラットフォームを悪用して敵対的なプロンプトを追加したり、攻撃者データで微調整されたバックドアを持つオープンソースチェックポイントを公開した2つの低コストのベクトルを介して、機密性の高いモデル出力とAIエージェントに宣伝または悪意のあるコンテンツを注入します。従来の精度を低下させる攻撃とは異なり、AEA は情報の整合性を損なうため、モデルは一見正常に見えますが、秘密に広告、宣伝、または憎悪の発言を返すようにします。この論文では、攻撃パイプラインを詳細に説明し、5つの利害関係者の被害者グループをマッピングし、追加のモデルの再訓練なしにこれらの注入を軽減する初期のプロンプトベースの自己検査防御を提示します。調査結果は、LLMセキュリティで緊急かつ未解決の問題を示し、AI安全コミュニティの調整された検出、監査、およびポリシー対応を必要とします。

Takeaways、Limitations

Takeaways:
LLMの新しいセキュリティ脅威であるAEAを特定し、その攻撃方法を詳細に分析します。
AEA攻撃に対する初期プロンプトベースの自己検査防御技術を提示します。
LLMセキュリティの脆弱性を強調し、AI安全コミュニティの積極的な対応の必要性を提起する。
Limitations:
提示された防御技法がすべてのAEA攻撃タイプに有効であるかどうかに関するさらなる研究が必要である。
AEA攻撃の様々な変種と拡張可能性の詳細な分析が必要
実際の環境におけるAEA攻撃に対する広範な実験と検証が不足している。
👍