다양한 모달리티를 지원하는 대규모 언어 모델(LLM)은 뛰어난 성능에도 불구하고, 탈옥 공격에 취약합니다. 기존 방어 기법들은 특정 유형의 탈옥 공격에만 효과적이어서 다양한 공격 전략에 대한 방어에는 한계가 있습니다. 본 논문에서는 다양한 탈옥 공격에 적응적으로 대응하는 범용 방어 프레임워크인 Test-time IMmunization (TIM)을 제안합니다. TIM은 핵심 토큰을 훈련하여 탈옥 시도를 효율적으로 탐지하고, 탐지된 탈옥 지시어와 거부 응답을 이용하여 안전한 미세 조정을 수행합니다. 또한, 탐지 모듈과 미세 조정 과정을 분리하여 성능 저하를 완화합니다. LLM과 다중 모달리티 LLM에 대한 실험을 통해 TIM의 효과를 입증합니다.