Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis

Created by
  • Haebom

作者

Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

概要

本論文は,Retrieval-Augmented Generation(RAG)システムの脆弱性であるRAGポイソン攻撃に対する新しい検出技術であるRevPRAGを提示する。 RAG poisoningは、知識データベースに悪意のあるテキストを注入し、LLMに攻撃者が望む応答を生成させる攻撃方法です。 RevPRAG は、LLM の活性化パターンを分析し、正常な応答と悪性の応答を区別することによって、これらの攻撃を検出します。さまざまなベンチマークデータセットとRAGアーキテクチャで、98%の真の陽性率と1%に近い偽陽性率を達成していることを示しています。

Takeaways、Limitations

Takeaways:
LLM活性化パターン解析によるRAGポイズニング攻撃検出の有効性を示した。
高精度(98%本物の陽性率、1%に近い偽陽性率)を達成するRevPRAG技術を紹介します。
RAGシステムのセキュリティ強化のための新しい方向性を提示します。
Limitations:
特定のLLMおよびRAGアーキテクチャの性能評価の結果であるため、他のモデルおよびアーキテクチャの一般化の可能性にはさらなる研究が必要です。
攻撃の多様性と複雑さが増すにつれて、RevPRAGのパフォーマンスが低下する可能性があります。
実際の環境での有効性を検証するための追加の研究が必要です。
👍