최근 장거리 사고 과정(Chain-of-Thought)을 통해 수학적 추론 능력이 향상된 추론 대형 언어 모델(LLM)들이 등장했습니다. 이 모델들의 추론 토큰은 추론 과정 내에서 자기 수정을 가능하게 하여 강건성을 높입니다. 본 연구는 이러한 추론 LLM들이 입력 추론 과정의 미묘한 오류에 얼마나 취약한지 조사합니다. 연구에서는 조작된 계산 결과를 포함하는 추론 토큰을 제시했을 때 모델이 정확한 추론 단계를 무시하고 잘못된 결과를 채택하는 "Compromising Thought"(CPT)라는 취약성을 제시합니다. 다양한 추론 LLM에 대한 체계적인 평가를 통해 CPT 저항성을 측정하기 위한 세 가지 점점 더 명시적인 프롬프트 방법을 설계하여 모델이 이러한 조작을 식별하고 수정하는 데 어려움을 겪는다는 것을 밝힙니다. 기존 연구에서 구조적 변경이 내용 수정보다 모델 성능에 더 큰 영향을 미친다는 제안과는 달리, 국소적 종결 토큰 조작이 구조적 변경보다 추론 결과에 더 큰 영향을 미친다는 것을 발견했습니다. 또한, 조작된 추론 토큰이 추론을 완전히 중단시킬 수 있는 DeepSeek-R1의 보안 취약성을 발견했습니다. 본 연구는 추론 강건성에 대한 이해를 높이고 추론 집약적 애플리케이션에 대한 보안 고려 사항을 강조합니다.