Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Injecting Falsehoods: Adversarial Man-in-the-Middle Attacks Undermining Factual Recall in LLMs

Created by
  • Haebom
Category
Empty

저자

Alina Fastowski, Bardh Prenkaj, Yuxiao Li, Gjergji Kasneci

개요

LLM(Large Language Model)이 정보 검색의 핵심 요소가 되면서, 질문 응답 챗봇으로서의 역할이 늘어남에 따라 적대적 MitM(Man-in-the-Middle) 공격에 대한 취약성이 우려되고 있다. 본 연구에서는 Xmera라는 새로운 MitM 프레임워크를 통해 프롬프트 주입 공격 하에서 LLM의 사실적 기억에 대한 공격 평가를 최초로 수행했다. 세 가지 닫힌 책 기반의 사실 기반 QA(Question Answering) 환경에서 "희생" LLM에 주어진 입력을 변형하여 응답의 정확성을 훼손하고, 생성 프로세스의 불확실성을 평가했다. 사소한 instruction-based 공격이 가장 높은 성공률(최대 ~85.3%)을 보였으며, 잘못된 질문에 대한 높은 불확실성을 동시에 나타냈다. Xmera에 대한 간단한 방어 메커니즘을 제공하기 위해 응답 불확실성 수준에 대해 Random Forest 분류기를 훈련하여 공격받은 쿼리와 공격받지 않은 쿼리를 구별했다(평균 AUC 최대 ~96%).

시사점, 한계점

시사점:
LLM의 MitM 공격 취약성 확인 및 Xmera 프레임워크 제안.
사소한 instruction-based 공격이 높은 성공률을 보임.
응답 불확실성을 이용한 방어 메커니즘 개발.
사용자 사이버 공간 안전을 위한 경고의 중요성 강조.
한계점:
구체적인 공격 유형 및 방어 메커니즘의 한계에 대한 논의 부족.
다른 LLM 모델 및 QA 환경에 대한 일반화 가능성 추가 연구 필요.
Xmera 프레임워크의 상세한 기술적 구현 정보 미제공.
👍