본 논문은 강화 학습(RL) 기반 대규모 추론 모델(LRM)의 사고 과정을 분석하여, '생각하지 않음(NT)', '명시적 사고(ET)', '암묵적 사고(IT)'의 세 가지 사고 모드를 밝혔습니다. 모델이 '생각하지 않고' 답변을 생성하도록 유도했을 때, 정확도는 떨어지지만 응답 길이는 줄어드는 것을 확인했습니다. 반면, '명시적' 또는 '암묵적' 사고 모드는 정확도를 유지하면서 응답 길이를 단축시키는 것을 발견했습니다. 이는 RL로 최적화된 LRM의 근본적인 비일관성을 보여주며, 효율성 향상을 위한 적응적 개선의 필요성을 시사합니다.