본 논문은 대규모 언어 모델(LLM)의 백도어 공격 취약성을 다루고, 숨겨진 트리거를 통해 출력을 조작하는 백도어 공격에 대한 새로운 방어 기법인 내부 일관성 정규화(CROW)를 제안합니다. 기존의 방어 기법들은 이미지/텍스트 분류 작업에 초점을 맞춰 텍스트 생성에는 효과적이지 못했지만, CROW는 백도어 모델이 트리거가 활성화될 때 계층별 은닉 표현이 불안정한 반면, 정상 모델은 부드러운 전이를 보이는 점을 이용합니다. CROW는 미세 조정 중에 적대적 방해와 정규화를 통해 계층 간 일관성을 강화하여, 정상 참조 모델이나 트리거 정보 없이도 소규모의 정상 데이터만으로 백도어를 제거합니다. Llama-2(7B, 13B), CodeLlama(7B, 13B), Mistral-7B에 대한 실험 결과, CROW는 다양한 백도어 전략(감정 조작, 목표 거부, 코드 주입)에 대해 공격 성공률을 크게 감소시키는 동시에 생성 성능을 유지하는 효과를 보였습니다. CROW는 아키텍처에 독립적인 설계로 실제 배포가 가능합니다.