본 논문은 최첨단 대규모 언어 모델(LLM)에 대한 적대적 공격이 여전히 유해한 결과물을 지속적으로 생성할 수 있다는 문제를 다룹니다. 기존의 이산적 적대적 공격은 효과적이지만, 구체적인 적대적 프롬프트를 사용한 LLM 훈련은 계산 비용이 많이 듭니다. 따라서 연속적 완화 기법에 의존하는 경우가 많지만, 이러한 기법은 이산적 입력 토큰에 해당하지 않아 다양한 이산적 공격에 취약합니다. 본 연구에서는 이산적 공격과 빠른 연속적 공격을 결합한 새로운 방법인 MixAT를 제시합니다. MixAT는 다양한 최첨단 공격에 대한 강력한 견고성을 보여주며, 특히 최악의 경우 취약성을 포착하는 ALO-ASR(At Least One Attack Success Rate) 지표를 사용하여 평가합니다. 실제 배포 환경에서도 채팅 템플릿, 양자화, 저랭크 어댑터, 온도 등의 요소가 적대적 훈련 및 평가에 미치는 영향을 분석하여 기존 방법론의 추가적인 취약점을 밝힙니다. MixAT는 최소한의 계산 오버헤드로 우수한 견고성-정확도 절충안을 제공합니다.