본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해, 외부 지도 없이 모델 스스로 추론 능력을 향상시키는 새로운 훈련 프레임워크인 Debate, Train, Evolve (DTE)를 제안합니다. DTE는 다중 에이전트 토론 기록을 사용하여 단일 언어 모델을 진화시키는 접근 방식을 취하며, 토론의 질을 향상시키기 위해 Reflect-Critique-Refine이라는 새로운 프롬프팅 전략을 도입합니다. 여러 추론 벤치마크에 대한 광범위한 평가 결과, DTE 프레임워크는 특히 GSM-PLUS 데이터셋에서 평균 8.92%의 정확도 향상을 달성하였으며, 다른 벤치마크에서도 평균 5.8%의 정확도 향상을 보이며 우수한 도메인 일반화 성능을 보여줍니다.