Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SMA:Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling

Created by
  • Haebom

作者

Shixuan Sun, Siyuan Liang, Ruoyu Chen, Jianjie Huang, Jingzhi Li, Xiaochun Cao

概要

本論文は、Retrieval-Augmented Generation (RAG) および Multimodal Retrieval-Augmented Generation (MRAG) で生成されたコンテンツのソースを細かく識別する最初の Source-aware Membership Audit (SMA) 方法論を提案します。従来のMembership Inference方法論は、RAG / MRAGシステムの複雑さのために生成されたコンテンツのソース(遷移学習データ、外部検索結果、ユーザー入力)を正確に識別できない限界を克服するために、ゼロオーダー最適化ベースの属性推定メカニズムとクロスモーダル属性技術を活用します。具体的には、MLLMを使用して画像入力をテキストに変換して、MRAGシステムで画像検索履歴のメンバーシップの参照を可能にします。これは、データが「記憶された」かどうかではなく、「コンテンツのソースがどこにあるか」に焦点を当てた新しい視点を提示します。

Takeaways、Limitations

Takeaways:
RAG / MRAGシステムによって生成されたコンテンツのソースを細かく識別する新しい方法論を提示します。
ゼロオーダー最適化ベースの属性推定メカニズムにより、セミブラックボックス環境でも効果的な監査が可能です。
MLLMを使用したクロスモーダル属性技術により、MRAGシステムの画像検索履歴のMembership Inferenceを可能にします。
データ起源監査の新しい視点を提示する。
Limitations:
ゼロオーダー最適化ベースの属性推定は、大規模摂動サンプリングを必要とするため、計算コストが高くなる可能性があります。
MLLMを使用した画像テキスト変換中に情報損失が発生する可能性があります。
SMAの精度と効率は、特定のRAG / MRAGシステム構造とデータ特性によって異なります。
実際のシステムへの適用とパフォーマンスの評価がさらに必要です。
👍