SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

작성자

Haebom

카테고리

비어 있음

저자

Xun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang

개요

본 논문은 지식 집약적인 작업에서 외부 지식을 대규모 언어 모델(LLM)에 통합함으로써 성공적인 결과를 보여준 검색-추출-생성(RAG) 패러다임의 보안 취약성을 다룹니다. 외부 및 검증되지 않은 지식의 통합은 공격자가 지식을 조작하여 공격을 수행할 수 있도록 LLM의 취약성을 증가시킵니다. 이에 따라 본 논문에서는 RAG 보안을 평가하기 위한 벤치마크인 SafeRAG를 제시합니다. SafeRAG는 '은폐된 노이즈', '문맥 간 충돌', '은밀한 광고', '백색 서비스 거부' 등의 공격 유형을 분류하고, 각 유형에 대한 데이터셋을 주로 수동으로 구축합니다. 실험 결과, 14개의 대표적인 RAG 구성 요소에서 모든 공격 유형에 대한 상당한 취약성을 보였으며, 명백한 공격조차도 기존의 검색기, 필터 또는 고급 LLM을 쉽게 우회하여 RAG 서비스 품질 저하를 야기함을 보여줍니다. 소스 코드는 Github에서 공개합니다.

시사점, 한계점

•

시사점: RAG 시스템의 보안 취약성을 체계적으로 평가하고 개선하기 위한 벤치마크 및 데이터셋을 제공합니다. 다양한 공격 유형에 대한 RAG의 취약성을 실험적으로 증명합니다. RAG의 안전한 개발 및 배포를 위한 중요한 시사점을 제공합니다.

•

한계점: 데이터셋이 주로 수동으로 구축되어 확장성에 한계가 있을 수 있습니다. 현재 평가 대상이 된 공격 유형 외에도 더욱 다양하고 정교한 공격 유형이 존재할 가능성이 있습니다. 특정 RAG 구성 요소에 대한 평가 결과이므로 다른 RAG 시스템으로 일반화하는 데에는 주의가 필요합니다.

PDF 보기

Slashpage로 제작됨