본 논문은 오디오 추론 모델(ARM)의 안전성을 강화하기 위한 연구를 제시한다. 특히, 추론 훈련(RT)을 통해 대형 모델(LM)에 추론 능력을 부여하는 것이 모델 성능을 향상시키지만, Jailbreak 공격에 대한 방어 능력은 부족함을 지적한다. 표준 RT가 단순한 공격에는 효과적일 수 있으나, 더 진보된 공격에 취약함을 보이며, 이는 공격 방식에 따른 표현의 차이(representation drift) 때문임을 밝힌다. 이러한 문제점을 해결하기 위해, 본 논문은 최악의 표현 변화에도 강건한 "Rebellion"이라는 강력한 RT 방법을 제안한다. Qwen2-Audio 모델을 대상으로 한 실험 결과, Rebellion은 유해한 공격에 대한 방어 능력을 향상시키면서도, 기존의 긍정적인 성능을 유지하는 것을 확인했다.