Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DRIP: Defending Prompt Injection via Token-wise Representation Editing and Residual Instruction Fusion

Created by
  • Haebom
Category
Empty

저자

Ruofan Liu, Yun Lin, Zhiyong Huang, Jin Song Dong

개요

대규모 언어 모델(LLM)이 IT 인프라에 통합되면서 사용자의 데이터를 처리하는 과정에서, 악의적인 사용자가 모델 동작을 조작하기 위해 지시 토큰을 주입하는 프롬프트 인젝션 공격에 취약하다는 문제점이 있습니다. 기존 방어 기술은 데이터와 지시 토큰을 의미적으로 분리하는 데 어려움이 있었으며, (1) 유용성과 보안 간의 균형, (2) 데이터 내 지시와 유사한 의미가 의도된 지시를 무시하는 것을 방지하는 데 한계가 있었습니다. 본 논문에서는 DRIP를 제안하여 (1) 데이터 섹션의 토큰에서 지시 의미를 정확하게 제거하면서 데이터 의미를 유지하고, (2) 강력한 적대적 내용에서도 의도된 지시의 효과를 견고하게 유지합니다. DRIP는 데이터 큐레이션 및 훈련 패러다임을 도입하여 데이터 섹션에서 지시와 유사한 토큰의 임베딩을 편집하는 경량 표현 편집 모듈을 사용함으로써 유용성을 해치지 않고 보안을 강화합니다. 또한 DRIP는 최소 잔여 모듈을 추가하여 적대적 데이터가 원래 지시를 덮어쓰는 능력을 감소시킵니다. LLaMA 8B 및 Mistral 7B 모델을 대상으로 3개의 프롬프트 인젝션 벤치마크에서 DRIP의 성능을 평가한 결과, 역할 분리 점수가 12-49% 향상되었고, 적대적 공격 하에서 공격 성공률이 66% 이상 감소했으며, 방어되지 않은 모델의 유용성을 유지하여 프롬프트 인젝션 강건성에 대한 새로운 기준을 제시했습니다.

시사점, 한계점

시사점:
프롬프트 인젝션 공격에 대한 LLM의 방어력을 획기적으로 향상시킴.
유용성 손실 없이 보안을 강화하는 새로운 방법론 제시.
새로운 아키텍처 및 훈련 방식을 통해 프롬프트 인젝션 방어 분야의 발전을 이끌 수 있음.
한계점:
구체적인 구현 세부 사항 및 모델 크기 확장성에 대한 추가 연구 필요.
다양한 유형의 적대적 공격에 대한 DRIP의 일반화 성능 평가 필요.
실제 IT 인프라 환경에서 DRIP의 적용 가능성 및 성능 검증 필요.
👍