Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Created by
  • Haebom

作者

Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

概要

Retrieval-Augmented Generation(RAG)は、モデルパラメータを変更せずに外部の知識データベースを利用して、基礎となる応答を生成する大規模言語モデル(LLM)を可能にします。しかし、重み調整がないと、モデルのコンテキストで検索された文書を悪用する推論攻撃者が現れる危険があります。従来のメンバーシップ推論およびデータ抽出方法は、しばしば脱獄または慎重に作成された非自然な質問に依存します。これは、RAGシステムで一般的なクエリ再作成技術を使用して簡単に検出または無効にすることができます。本研究では、RAGデータストアの文書を対象とするメンバーシップ推論技術であるInterrogation Attack(IA)を提示します。ターゲット文書の存在にのみ答えることができる自然言語クエリを作成することによって、この方法は30のクエリだけで成功した推論を示すと同時に秘密性を維持します。単純な検出器は、従来の方法で生成されたプロンプトよりも、私たちの攻撃で生成されたプロンプトを最大〜76倍少なく識別します。さまざまなRAG構成では、以前の推論攻撃よりもTPR @ 1%FPRが2倍向上することが観察され、文書あたりの推論コストは$ 0.02未満です。

Takeaways、Limitations

Takeaways: RAGシステムのセキュリティ脆弱性を示す新しいメンバーシップ推論攻撃(Interrogation Attack)を提示します。既存の方法よりも効率的かつ秘密にメンバーシップ推論を実行できることを示しています。低コストで高精度を達成します。
Limitations:特定のRAGシステムに対する攻撃の有効性の評価であり、他のRAGシステムまたはデータセットで一般化の可能性をさらに検証する必要があります。攻撃が成功したかどうかは、データストアの性質と質問の質によって影響を受ける可能性があります。より洗練された検出と防御メカニズムの開発の必要性を示唆しています。
👍