Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation Analysis

Created by
  • Haebom

저자

Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

개요

본 논문은 Retrieval-Augmented Generation (RAG) 시스템의 취약점인 RAG poisoning 공격에 대한 새로운 탐지 기법인 RevPRAG을 제시합니다. RAG poisoning은 지식 데이터베이스에 악성 텍스트를 주입하여 LLM이 공격자가 원하는 응답을 생성하게 만드는 공격 방식입니다. RevPRAG은 LLM의 활성화 패턴을 분석하여 정상적인 응답과 악성 응답을 구분함으로써 이러한 공격을 탐지합니다. 다양한 벤치마크 데이터셋과 RAG 아키텍처에서 98%의 진짜 양성률과 1%에 가까운 거짓 양성률을 달성함을 보여줍니다.

시사점, 한계점

시사점:
LLM 활성화 패턴 분석을 통한 RAG poisoning 공격 탐지의 효용성을 제시합니다.
높은 정확도(98% 진짜 양성률, 1%에 가까운 거짓 양성률)를 달성하는 RevPRAG 기법을 소개합니다.
RAG 시스템의 보안 강화를 위한 새로운 방향을 제시합니다.
한계점:
특정 LLM 및 RAG 아키텍처에 대한 성능 평가 결과이므로, 다른 모델 및 아키텍처에 대한 일반화 가능성은 추가 연구가 필요합니다.
공격의 다양성과 복잡성이 증가함에 따라 RevPRAG의 성능 저하 가능성이 존재합니다.
실제 환경에서의 효과성 검증을 위한 추가적인 연구가 필요합니다.
👍