LLM은 정보 검색에서 중요한 역할을 하고 있으며, 질문 응답 챗봇으로서의 역할은 중간자 공격에 취약하다는 우려를 낳고 있다. 본 논문은 프롬프트 주입을 통한 LLM의 사실적 기억에 대한 최초의 원칙적 공격 평가를 수행하기 위해, 새로운 이론 기반 중간자 프레임워크인 Xmera를 제안한다. 3가지 폐쇄형 및 사실 기반 QA 설정에서 "피해자" LLM에 주어진 입력을 변조하여 응답의 정확성을 훼손하고 생성 프로세스의 불확실성을 평가한다.
시사점, 한계점
•
시사점:
◦
단순한 지침 기반 공격이 높은 성공률(최대 ~85.3%)을 보였다.
◦
잘못된 답변에 대해 높은 불확실성을 나타냈다.
◦
응답 불확실성 수준에 대한 Random Forest 분류기를 훈련하여 공격받은 쿼리와 그렇지 않은 쿼리를 구별하는 간단한 방어 메커니즘을 제공 (평균 AUC ~96%).
◦
사용자가 블랙박스 LLM에서 받은 답변에 주의하도록 함으로써 사이버 공간 안전에 기여할 수 있다.