Sign In

DRIP: Defending Prompt Injection via De-instruction Training and Residual Fusion Model Architecture

Created by
  • Haebom
Category
Empty

저자

Ruofan Liu, Yun Lin, Jin Song Dong

개요

대규모 언어 모델(LLM)은 프롬프트 주입 공격에 취약하며, 이는 모델이 지시어와 데이터를 구분하지 못하기 때문이다. 본 논문은 DRIP이라는 훈련 기반 방어 기법을 제안한다. DRIP은 토큰 단위 탈지시 시프트와 잔차 융합 경로를 통해 지시와 데이터의 의미론적 분리를 강화한다. LLaMA-8B 및 Mistral-7B 모델에 대한 실험 결과, DRIP은 기존 방어 기법보다 우수한 성능을 보이며, 공격 성공률을 감소시키고 역할 분리를 개선했다.

시사점, 한계점

시사점:
DRIP은 경량의 표현 편집과 역할 인식 감독을 통해 LLM을 적응형 프롬프트 주입 공격으로부터 보호한다.
DRIP은 기존 방어 기법보다 우수한 성능을 보인다.
DRIP은 모델의 유용성을 유지한다.
한계점:
논문에 구체적인 한계점은 명시되지 않음.
👍