대규모 추론 모델(LRM)이 추론 시 더 많은 컴퓨팅 자원을 할당하여 더 높은 성능을 달성하지만, 이 확장된 추론이 거부를 개선하여 안전성을 강화할 수 있다는 기존 연구와는 반대로, 동일한 추론이 보호 장치를 우회하는 데 사용될 수 있음을 발견했습니다. 본 논문에서는 추론 모델에 대한 Jailbreak 공격인 Chain-of-Thought Hijacking을 소개합니다. 이 공격은 유해한 요청에 긴 일련의 무해한 퍼즐 추론을 추가합니다. HarmBench에서 CoT Hijacking은 Gemini 2.5 Pro, GPT-4 mini, Grok 3 mini, Claude 4 Sonnet에서 각각 99%, 94%, 100%, 94%의 공격 성공률(ASR)을 달성하여 LRM에 대한 기존 Jailbreak 방법보다 훨씬 뛰어났습니다. 공격의 효과를 이해하기 위해 기계론적 분석을 수행하여 중간 레이어가 안전 점검의 강도를 인코딩하고, 후반 레이어가 검증 결과를 인코딩한다는 것을 보여줍니다. 긴 무해한 CoT는 유해 토큰에서 주의를 분산시켜 두 신호를 모두 희석시킵니다. 이 분석에서 식별된 주의 헤드의 표적 제거는 거부를 인과적으로 감소시켜 안전 하위 네트워크에서의 역할을 확인합니다. 이러한 결과는 가장 해석 가능한 형태의 추론인 명시적 CoT가 최종 답변 신호와 결합될 때 Jailbreak 벡터가 될 수 있음을 보여줍니다. 재현을 용이하게 하기 위해 프롬프트, 출력 및 판단 결정을 공개합니다.