RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis
Created by
Haebom
저자
Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai
개요
본 논문은 Retrieval-Augmented Generation (RAG) 시스템의 취약점인 RAG poisoning 공격에 대한 새로운 탐지 기법인 RevPRAG을 제시합니다. RAG poisoning은 지식 데이터베이스에 악성 텍스트를 주입하여 LLM이 공격자가 원하는 응답을 생성하게 만드는 공격 방식입니다. RevPRAG은 LLM의 활성화 패턴을 분석하여 정상적인 응답과 악성 응답을 구분함으로써 이러한 공격을 탐지합니다. 다양한 벤치마크 데이터셋과 RAG 아키텍처에서 98%의 진짜 양성률과 1%에 가까운 거짓 양성률을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM 활성화 패턴 분석을 통한 RAG poisoning 공격 탐지의 효용성을 제시합니다.
◦
높은 정확도(98% 진짜 양성률, 1%에 가까운 거짓 양성률)를 달성하는 RevPRAG 기법을 소개합니다.
◦
RAG 시스템의 보안 강화를 위한 새로운 방향을 제시합니다.
•
한계점:
◦
특정 LLM 및 RAG 아키텍처에 대한 성능 평가 결과이므로, 다른 모델 및 아키텍처에 대한 일반화 가능성은 추가 연구가 필요합니다.