본 논문은 대규모 추론 모델(LRM)의 사고 과정(CoT)이 과도하게 길어져 첫 토큰 생성 시간 및 전반적인 지연 시간이 길다는 문제점을 해결하기 위해, 다중 턴 분해(MinD) 기법을 제안합니다. MinD는 기존 CoT를 명시적이고 구조화된 턴 단위 상호 작용으로 분해하여 모델이 질의에 대한 다중 턴 응답을 생성하도록 합니다. 각 턴은 하나의 사고 단위를 포함하며 해당 답변을 생성하고, 이후 턴에서는 이전 턴의 사고 및 답변 부분을 반영, 검증, 수정 또는 대안적인 접근 방식을 모색할 수 있습니다. 이는 답변 생성 속도를 높일 뿐만 아니라 반복적인 추론 과정에 대한 명시적인 제어를 가능하게 합니다. 지도 학습 미세 조정(SFT)과 강화 학습(RL) 패러다임을 사용하여 MinD를 구현하며, MATH 데이터셋을 사용하여 R1-Distill 모델을 기반으로 학습했습니다.