본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력, 특히 중소형 오픈 LLM의 신뢰성에 대한 질문을 다룹니다. 기존의 강력한 LLM의 추론 능력을 향상시키기 위해, 약한 보조 LLM들의 다양한 의견을 활용하는 사후 훈련 기법인 '의견 혼합(MoO)'을 제안합니다. MoO는 사후 훈련 샘플에 보조 LLM들의 Chain-of-Thought(CoT) 추론 과정과 답변을 추가하여 주요 LLM이 다양한 관점을 학습하도록 합니다. 실험 결과, MoO는 수학적 추론 벤치마크에서 기존의 지도 학습 미세 조정(SFT), 몇 번의 예시 프롬프트, 에이전트 혼합(MoA) 방법보다 평균 5% 향상된 성능을 보이며, 추론 과제에서 다양한 관점의 가치를 강조합니다.