대규모 언어 모델(LLM)이 IT 인프라에 통합되면서 사용자의 데이터를 처리하는 과정에서, 악의적인 사용자가 모델 동작을 조작하기 위해 지시 토큰을 주입하는 프롬프트 인젝션 공격에 취약하다는 문제점이 있습니다. 기존 방어 기술은 데이터와 지시 토큰을 의미적으로 분리하는 데 어려움이 있었으며, (1) 유용성과 보안 간의 균형, (2) 데이터 내 지시와 유사한 의미가 의도된 지시를 무시하는 것을 방지하는 데 한계가 있었습니다. 본 논문에서는 DRIP를 제안하여 (1) 데이터 섹션의 토큰에서 지시 의미를 정확하게 제거하면서 데이터 의미를 유지하고, (2) 강력한 적대적 내용에서도 의도된 지시의 효과를 견고하게 유지합니다. DRIP는 데이터 큐레이션 및 훈련 패러다임을 도입하여 데이터 섹션에서 지시와 유사한 토큰의 임베딩을 편집하는 경량 표현 편집 모듈을 사용함으로써 유용성을 해치지 않고 보안을 강화합니다. 또한 DRIP는 최소 잔여 모듈을 추가하여 적대적 데이터가 원래 지시를 덮어쓰는 능력을 감소시킵니다. LLaMA 8B 및 Mistral 7B 모델을 대상으로 3개의 프롬프트 인젝션 벤치마크에서 DRIP의 성능을 평가한 결과, 역할 분리 점수가 12-49% 향상되었고, 적대적 공격 하에서 공격 성공률이 66% 이상 감소했으며, 방어되지 않은 모델의 유용성을 유지하여 프롬프트 인젝션 강건성에 대한 새로운 기준을 제시했습니다.