MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks
Created by
Haebom
저자
Hyeonjeong Ha, Qiusi Zhan, Jeonghwan Kim, Dimitrios Bralios, Saikrishna Sanniboina, Nanyun Peng, Kai-Wei Chang, Daniel Kang, Heng Ji
MM-PoisonRAG: 지식 오염 공격에 대한 다중 모드 검색 증강 생성 모델의 취약성 연구
개요
다중 모드 검색 증강 생성(RAG) 모델은 외부 텍스트 및 이미지를 기반으로 응답을 생성하여 다중 모드 질의 응답과 같은 작업에서 괄목할 만한 발전을 이루었습니다. 이러한 기반은 사실성을 향상시키고, 환각을 줄이며, 모수적 지식을 넘어 추론을 확장합니다. 그러나 이러한 외부 지식 의존은 지식 오염 공격과 같은 중요한 안전 위험을 야기합니다. 이 공격은 적대자가 잘못되거나 유해한 응답을 생성하도록 유도하기 위해 적대적인 다중 모드 콘텐츠를 외부 지식 기반에 의도적으로 주입합니다. 본 연구에서는 이러한 취약성을 드러내기 위해 다중 모드 RAG에서 지식 오염을 체계적으로 설계하는 최초의 프레임워크인 MM-PoisonRAG를 제안합니다.
시사점, 한계점
•
시사점:
◦
MM-PoisonRAG는 다중 모드 RAG 모델에 대한 지식 오염 공격의 취약성을 처음으로 체계적으로 조사합니다.
◦
Localized Poisoning Attack (LPA)와 Globalized Poisoning Attack (GPA) 두 가지 공격 전략을 제안합니다.
◦
LPA는 최대 56%의 공격 성공률로 특정 질의에 대한 조작을 달성합니다.
◦
GPA는 단일 적대적 지식 주입만으로 모든 질의에서 모델 생성을 0% 정확도로 완전히 파괴합니다.
◦
본 연구 결과는 다중 모드 RAG의 취약성을 드러내고 지식 오염에 대한 방어의 시급성을 강조합니다.
•
한계점:
◦
연구에 사용된 구체적인 모델, 작업, 액세스 설정에 국한될 수 있습니다.
◦
제안된 공격 및 방어 전략의 일반화 가능성 및 실제 적용 가능성에 대한 추가 연구가 필요합니다.
◦
본 연구는 지식 오염 공격에 대한 초기 단계의 탐구이며, 향후 더 발전된 공격 및 방어 메커니즘 개발이 필요합니다.