DRIP: Defending Prompt Injection via De-instruction Training and Residual Fusion Model Architecture
Created by
Haebom
Category
Empty
저자
Ruofan Liu, Yun Lin, Jin Song Dong
개요
대규모 언어 모델(LLM)은 프롬프트 주입 공격에 취약하며, 이는 모델이 지시어와 데이터를 구분하지 못하기 때문이다. 본 논문은 DRIP이라는 훈련 기반 방어 기법을 제안한다. DRIP은 토큰 단위 탈지시 시프트와 잔차 융합 경로를 통해 지시와 데이터의 의미론적 분리를 강화한다. LLaMA-8B 및 Mistral-7B 모델에 대한 실험 결과, DRIP은 기존 방어 기법보다 우수한 성능을 보이며, 공격 성공률을 감소시키고 역할 분리를 개선했다.
시사점, 한계점
•
시사점:
◦
DRIP은 경량의 표현 편집과 역할 인식 감독을 통해 LLM을 적응형 프롬프트 주입 공격으로부터 보호한다.