One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems
Created by
Haebom
저자
Zhiyuan Chang, Xiaojun Jia, Mingyang Li, Junjie Wang, Yuekai Huang, Qing Wang, Ziyou Jiang, Yang Liu
개요
본 논문은 Retrieval-Augmented Generation (RAG) 기반 대규모 언어 모델(LLM)의 취약점을 공격하는 새로운 방법인 AuthChain을 제안합니다. RAG 시스템은 외부 지식 기반에 의존하기 때문에, 특히 공개적으로 접근 가능하고 수정 가능한 지식 기반의 경우 보안 취약성에 노출될 수 있습니다. 기존의 다중 악성 문서 주입 방식은 탐지가 쉽고 비실용적이라는 한계가 있습니다. AuthChain은 Chain-of-Evidence 이론과 권위 효과를 활용하여 단일 악성 문서만으로도 효과적인 공격을 가능하게 합니다. 이는 설득력 있는 증거 체인을 구축하고 권위 있는 진술을 포함하여, 정상적인 문서와 LLM의 내부 지식으로부터의 간섭을 효과적으로 극복합니다. 여섯 가지 인기 있는 LLM에 대한 광범위한 실험을 통해 AuthChain이 기존 방법보다 훨씬 높은 공격 성공률과 은폐성을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
단일 악성 문서를 이용한 효과적인 RAG 시스템 공격 방법을 제시합니다.
◦
Chain-of-Evidence 이론과 권위 효과를 활용하여 높은 공격 성공률과 은폐성을 달성합니다.