최근 장쇄 사고 과정(Chain-of-Thought)을 통해 수학적 추론 능력이 향상된 대규모 언어 모델(LLM)들이 등장했습니다. 이 모델들의 추론 토큰은 추론 과정 내에서 자기 수정을 가능하게 하여 강건성을 높입니다. 본 연구는 추론 LLM이 입력 추론 과정의 미묘한 오류에 얼마나 취약한지에 대한 탐구입니다. 연구진은 조작된 계산 결과를 포함하는 추론 토큰이 제시될 때 모델이 정확한 추론 단계를 무시하고 대신 잘못된 결과를 채택하는 취약점인 "Compromising Thought"(CPT)를 제시합니다. 여러 추론 LLM에 대한 체계적인 평가를 통해 세 가지 점점 더 명시적인 프롬프트 방법을 설계하여 CPT 저항성을 측정하고, 모델이 이러한 조작을 식별하고 수정하는 데 상당한 어려움을 겪는다는 것을 밝혀냈습니다. 기존 연구에서 구조적 변경이 내용 수정보다 모델 성능에 더 큰 영향을 미친다는 주장과는 달리, 국소적 종료 토큰 조작이 구조적 변경보다 추론 결과에 더 큰 영향을 미친다는 것을 발견했습니다. 또한, 조작된 추론 토큰이 추론 중단을 유발할 수 있는 DeepSeek-R1의 보안 취약점을 발견했습니다. 본 연구는 추론 강건성에 대한 이해를 높이고 추론 집약적 애플리케이션에 대한 보안 문제를 강조합니다.