Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Semantics as a Shield: Label Disguise Defense (LDD) against Prompt Injection in LLM Sentiment Classification

Created by
  • Haebom
Category
Empty

저자

Yanxi Li, Ruocheng Shan

개요

대규모 언어 모델(LLM)이 텍스트 분류에 널리 사용되면서, 자연어 프롬프트에 대한 의존성이 프롬프트 주입 공격에 취약하게 만든다. 본 논문은 모델의 레이블 집합에 대한 지식을 이용하여 적대적 지침을 통해 의도된 동작을 재정의하는 클래스 지시 주입 공격을 다룬다. 본 연구는 경량의 모델 독립적인 전략인 LDD(Label Disguise Defense)를 제시하며, 이는 레이블을 의미적으로 변환되거나 관련 없는 별칭 레이블(예: 파란색 vs. 노란색)로 대체하여 실제 레이블을 숨기는 방식이다. 모델은 소수 샷 데몬스트레이션을 통해 새로운 레이블 매핑을 암묵적으로 학습하며, 주입된 지침과 결정 출력 간의 직접적인 대응을 방지한다. GPT-5, GPT-4o, LLaMA3.2, Gemma3, Mistral 변형 등 9개의 최첨단 모델에 대해 LDD를 평가했으며, 결과는 LDD가 공격으로 인한 성능 저하를 부분적으로 복구할 수 있음을 보여준다. 의미적으로 정렬된 별칭 레이블이 정렬되지 않은 기호보다 더 강력한 견고성을 제공한다는 것을 발견했다.

시사점, 한계점

시사점:
LDD는 모델 독립적이고 경량화된 방어 전략이다.
레이블의 의미론적 변환을 통해 프롬프트 주입 공격에 대한 방어가 가능하다.
의미적으로 정렬된 별칭 레이블이 더 높은 방어 효과를 보인다.
LDD는 공격받는 기본 성능보다 더 높은 정확도를 달성할 수 있다.
한계점:
LDD의 효과는 모델 및 별칭 선택에 따라 다르다.
모든 모델에서 완벽한 성능 복구를 보장하지 않는다.
👍