대규모 언어 모델(LLM)이 텍스트 분류에 널리 사용되면서, 자연어 프롬프트에 대한 의존성이 프롬프트 주입 공격에 취약하게 만든다. 본 논문은 모델의 레이블 집합에 대한 지식을 이용하여 적대적 지침을 통해 의도된 동작을 재정의하는 클래스 지시 주입 공격을 다룬다. 본 연구는 경량의 모델 독립적인 전략인 LDD(Label Disguise Defense)를 제시하며, 이는 레이블을 의미적으로 변환되거나 관련 없는 별칭 레이블(예: 파란색 vs. 노란색)로 대체하여 실제 레이블을 숨기는 방식이다. 모델은 소수 샷 데몬스트레이션을 통해 새로운 레이블 매핑을 암묵적으로 학습하며, 주입된 지침과 결정 출력 간의 직접적인 대응을 방지한다. GPT-5, GPT-4o, LLaMA3.2, Gemma3, Mistral 변형 등 9개의 최첨단 모델에 대해 LDD를 평가했으며, 결과는 LDD가 공격으로 인한 성능 저하를 부분적으로 복구할 수 있음을 보여준다. 의미적으로 정렬된 별칭 레이블이 정렬되지 않은 기호보다 더 강력한 견고성을 제공한다는 것을 발견했다.