Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Few Words Can Distort Graphs: Knowledge Poisoning Attacks on Graph-based Retrieval-Augmented Generation of Large Language Models

Created by
  • Haebom

저자

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

개요

본 논문은 Graph-based Retrieval-Augmented Generation (GraphRAG) 모델의 취약점을 공격하는 두 가지 지식 중독 공격(Knowledge Poisoning Attacks, KPAs)을 제시합니다. GraphRAG는 원시 텍스트를 구조화된 지식 그래프로 변환하여 LLM의 정확도와 설명 가능성을 향상시키는 모델인데, 이때 LLM이 원시 텍스트에서 지식을 추출하는 과정이 악의적으로 조작될 수 있다는 점에 착안했습니다. 제시된 두 가지 공격 방식은 Targeted KPA (TKPA)와 Universal KPA (UKPA)입니다. TKPA는 그래프 이론적 분석을 이용하여 생성된 그래프의 취약한 노드를 찾아 해당 서술을 LLM으로 다시 작성하여 특정 질문-응답(QA) 결과를 정밀하게 제어합니다. UKPA는 대명사나 의존 관계와 같은 언어적 단서를 이용하여 전역적으로 영향력 있는 단어를 변경하여 생성된 그래프의 구조적 무결성을 파괴합니다. 실험 결과, 소량의 텍스트 수정만으로도 GraphRAG의 QA 정확도를 크게 떨어뜨릴 수 있음을 보여주며, 기존 방어 기법이 이러한 공격을 탐지하지 못한다는 사실을 강조합니다.

시사점, 한계점

시사점: GraphRAG와 같은 LLM 기반 지식 그래프 생성 모델의 보안 취약성을 보여주고, 지식 중독 공격에 대한 새로운 공격 기법과 그 효과를 제시합니다. 기존 방어 기법의 한계를 드러내며, GraphRAG 모델의 보안 강화 연구의 필요성을 강조합니다. TKPA와 UKPA는 공격 성공률이 높고, 적은 양의 텍스트 수정으로도 큰 영향을 미칩니다.
한계점: 현재 제시된 공격은 특정 GraphRAG 구현에 대한 것이며, 다른 구현이나 LLM 아키텍처에 대한 일반화 가능성은 추가 연구가 필요합니다. 실제 환경에서의 공격 효과는 추가적인 검증이 필요합니다. 제시된 방어 기법의 부재는 향후 연구 방향을 제시하지만, 구체적인 방어 전략에 대한 논의는 부족합니다.
👍