본 논문은 대규모 언어 모델(LLM)의 인컨텍스트 학습(ICL)이 백도어 공격에 취약하다는 문제를 다룬다. 악의적인 사용자가 몇 개의 ICL 데모를 조작하여 LLM의 행동을 조종할 수 있다는 것이다. 본 논문에서는 LLM이 작업 관련 잠재 개념과 백도어 잠재 개념을 동시에 학습한다는 이중 학습 가설을 제시하고, 이를 통해 ICL 백도어 효과의 상한선을 이론적으로 유도한다. 이를 바탕으로, 신뢰도와 유사도 점수를 활용하여 깨끗한 데모를 선택하도록 유도하는 방어 메커니즘인 ICLShield를 제안한다. 실험 결과, ICLShield는 기존 방법보다 평균 26.02% 향상된 성능을 보이며, 특히 폐쇄형 모델에서도 우수한 성능을 나타낸다.