[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Defending against Indirect Prompt Injection by Instruction Detection

Created by
  • Haebom

저자

Tongyu Wen, Chenglong Wang, Xiyuan Yang, Haoyu Tang, Yueqi Xie, Lingjuan Lyu, Zhicheng Dou, Fangzhao Wu

개요

본 논문은 대규모 언어 모델(LLM)과 외부 데이터 소스를 통합하는 과정에서 발생하는 간접 프롬프트 주입(IPI) 공격의 취약성에 대해 다룹니다. 특히, 외부 데이터에 숨겨진 지시사항이 LLM을 조작하여 의도치 않거나 악의적인 행동을 하도록 유도하는 IPI 공격에 초점을 맞춥니다. 논문에서는 LLM의 행동 상태 변화를 감지하여 IPI 공격을 방어하는 새로운 접근 방식을 제안합니다. 외부 데이터를 입력으로 받아 전방 및 후방 전파 과정에서 LLM의 행동 상태를 활용하여 잠재적인 IPI 공격을 감지하는 방법을 제시하며, 중간층의 은닉 상태와 기울기가 지시사항 탐지에 매우 유용한 특징임을 보여줍니다. 제안된 방법은 도메인 내 설정에서 99.60%, 도메인 외 설정에서 96.90%의 검출 정확도를 달성하고, BIPIA 벤치마크에서 공격 성공률을 0.12%로 줄였습니다.

시사점, 한계점

시사점:
LLM의 행동 상태 변화를 활용한 IPI 공격 방어 기법의 효과성을 실증적으로 제시.
높은 정확도(도메인 내 99.60%, 도메인 외 96.90%)의 IPI 공격 탐지 성능 달성.
BIPIA 벤치마크를 통한 실험 결과로 성능 검증.
중간층의 은닉 상태와 기울기를 활용한 새로운 특징 추출 방식 제시.
한계점:
제안된 방법의 실제 환경 적용 가능성 및 확장성에 대한 추가 연구 필요.
다양한 유형의 IPI 공격 및 LLM 아키텍처에 대한 일반화 성능 평가 필요.
도메인 외 설정에서의 성능 저하 원인 분석 및 개선 필요.
BIPIA 벤치마크 외 다른 벤치마크를 활용한 추가 검증 필요.
👍