본 논문은 대규모 언어 모델(LLM)의 사후 훈련에서 어떤 요소가 효과를 발휘하는지, 특히 사고의 연쇄(CoT)와 프로세스 보상과 같은 추론 경로에서의 훈련을 통해 계층별 경사도의 관점에서 다양한 계층의 훈련 패턴을 조사합니다. 빠른 사고(CoT 없음)는 느린 사고(상세한 CoT)보다 더 큰 경사도와 계층 간 경사도 차이를 가져와 느린 사고가 학습 안정성을 제공함을 보여줍니다. 또한, 빠른 사고 대 느린 사고 경로를 사용하여 다양한 LLM을 훈련할 때 경사도 패턴이 응답의 정확성을 반영하는지 연구합니다. 느린 사고의 경사도는 정확한 추론 경로와 무관한 추론 경로를 구별할 수 있음을 보여줍니다. 비추론 지식 학습 작업에 대한 유사한 경사도 분석을 비교 연구하여 응답 길이를 단순히 늘리는 것이 느린 사고와 유사한 행동으로 이어지지 않음을 확인합니다. 이 연구는 LLM 훈련에 대한 근본적인 이해를 강화하고 효율성 및 안정성에 대한 새로운 통찰력을 제공하여 일반화 가능한 시스템 2 에이전트를 구축하는 길을 열어줍니다.