Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Few Words Can Distort Graphs: Knowledge Poisoning Attacks on Graph-based Retrieval-Augmented Generation of Large Language Models

Created by
  • Haebom

저자

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

개요

본 논문은 Graph-based Retrieval-Augmented Generation (GraphRAG) 모델의 취약점을 공격하는 두 가지 지식 중독 공격(Knowledge Poisoning Attacks, KPAs)을 제안합니다. GraphRAG는 원시 텍스트를 구조화된 지식 그래프로 변환하여 LLM의 정확성과 설명력을 향상시키는 모델이지만, 그래프 생성 과정에서 LLM이 원시 텍스트에서 지식을 추출하는 과정이 악의적으로 조작될 수 있습니다. 논문에서는 표적 지식 중독 공격(Targeted KPA, TKPA)과 범용 지식 중독 공격(Universal KPA, UKPA) 두 가지 공격 방법을 제시합니다. TKPA는 그래프 이론적 분석을 이용하여 생성된 그래프에서 취약한 노드를 찾아 해당 서술을 LLM으로 다시 작성하여 특정 질문응답(QA) 결과를 정확하게 제어합니다(성공률 93.1%). UKPA는 대명사나 의존 관계와 같은 언어적 단서를 이용하여 전반적으로 영향력 있는 단어를 변경하여 생성된 그래프의 구조적 무결성을 깨뜨립니다. 전체 텍스트의 0.05% 미만을 수정하여 QA 정확도를 95%에서 50%로 떨어뜨립니다. 실험 결과, 최첨단 방어 기법조차 이러한 공격을 탐지하지 못함을 보여주며, GraphRAG 파이프라인을 지식 중독으로부터 보호하는 것은 아직 미개척 분야임을 강조합니다.

시사점, 한계점

시사점: GraphRAG 모델의 취약점을 보여주는 새로운 지식 중독 공격 기법 (TKPA, UKPA)을 제시함으로써, LLM 기반 시스템의 보안 강화에 대한 중요성을 부각합니다. 최소한의 텍스트 수정으로도 큰 영향을 미칠 수 있음을 보여줍니다. 기존 방어 기법의 한계를 드러냄으로써 향후 연구 방향을 제시합니다.
한계점: 현재 제시된 공격은 특정한 GraphRAG 구현에 국한될 수 있습니다. 다양한 GraphRAG 모델과 데이터셋에 대한 추가적인 연구가 필요합니다. 제안된 공격에 대한 효과적인 방어 기법 개발이 향후 과제로 남습니다. 실제 환경에서의 공격 성공률에 대한 추가적인 검증이 필요합니다.
👍