본 논문은 대규모 언어 모델(LLM)과 외부 데이터 소스를 통합하는 과정에서 발생하는 간접 프롬프트 주입(IPI) 공격의 취약성에 대해 다룹니다. 특히, 외부 데이터에 숨겨진 지시사항이 LLM을 조작하여 의도치 않거나 악의적인 행동을 하도록 유도하는 IPI 공격에 초점을 맞춥니다. 논문에서는 LLM의 행동 상태 변화를 감지하여 IPI 공격을 방어하는 새로운 접근 방식을 제안합니다. 외부 데이터를 입력으로 받아 전방 및 후방 전파 과정에서 LLM의 행동 상태를 활용하여 잠재적인 IPI 공격을 감지하는 방법을 제시하며, 중간층의 은닉 상태와 기울기가 지시사항 탐지에 매우 유용한 특징임을 보여줍니다. 제안된 방법은 도메인 내 설정에서 99.60%, 도메인 외 설정에서 96.90%의 검출 정확도를 달성하고, BIPIA 벤치마크에서 공격 성공률을 0.12%로 줄였습니다.
시사점, 한계점
•
시사점:
◦
LLM의 행동 상태 변화를 활용한 IPI 공격 방어 기법의 효과성을 실증적으로 제시.
◦
높은 정확도(도메인 내 99.60%, 도메인 외 96.90%)의 IPI 공격 탐지 성능 달성.