본 논문은 사고 연쇄(CoT) 토큰을 생성하는 추론 모델의 탈옥 공격 취약성에 대한 연구 결과를 제시합니다. 기존 언어 모델이 프롬프트-응답 경계에서 거부 결정을 내리는 것과 달리, DeepSeek-R1-Distill-Llama-8B 모델은 CoT 생성 과정 내부에서 거부 결정을 내린다는 증거를 발견했습니다. 연구진은 CoT 토큰 생성 중 활성화 공간에서 모델의 거부 또는 수용 여부를 예측하는 선형 방향(주의 방향)을 확인했습니다. 이 방향은 생성된 텍스트에서 신중한 추론 패턴과 일치합니다. 이 방향을 모델 활성화에서 제거하면 유해한 수용이 증가하여 모델의 탈옥이 효과적으로 이루어집니다. 또한 CoT 토큰 활성화만 조작하여 최종 출력을 제어할 수 있으며, 프롬프트 기반 공격에 이 방향을 통합하면 성공률이 향상됨을 보여줍니다. 결론적으로 사고 연쇄 자체가 추론 모델에 대한 적대적 조작의 유망한 새로운 표적임을 시사합니다.