Confucius3-Math는 140억 개의 파라미터를 가진 오픈소스 대규모 언어 모델로, 소비자급 GPU 하나로 효율적으로 실행되며 다양한 수학적 추론 작업에서 최첨단 성능을 달성합니다. 특히 중국 K-12 학생 및 교육자를 위한 수학 학습에 중점을 두고 있으며, 대규모 강화 학습(RL)을 통한 사후 훈련을 통해 중국 국가 교육과정에 맞춰 주요 중국 K-12 수학 문제를 저렴한 비용으로 해결하는 데 탁월합니다. 본 논문에서는 개발 과정, 발생한 문제 및 해결을 위한 기술들을 공유하며, 표적 엔트로피 규제, 최근 샘플 복구, 정책 특정 난이도 가중치 부여라는 세 가지 기술적 혁신을 소개합니다. 이러한 혁신은 새로운 엔트로피 규제, 새로운 데이터 스케줄링 정책, 개선된 그룹 상대적 이점 추정기를 포함하며, RL 훈련의 안정성을 크게 높이고 데이터 효율성을 개선하며 성능을 향상시킵니다. 이 연구는 특정 분야에서 강력한 추론 모델을 저렴한 비용으로 구축할 수 있음을 보여줍니다. 모델과 코드는 GitHub에서 공개되었습니다.