본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위해, 아르트 오브 프라블럼 솔빙(AoPS) 포럼의 방대한 자료를 활용하여 60만 개 이상의 고품질 질문-답변 쌍으로 구성된 AoPS-Instruct 데이터셋을 자동화된 파이프라인을 통해 구축한 연구를 제시합니다. AoPS-Instruct 데이터셋으로 LLM을 미세 조정한 결과, 다양한 벤치마크에서 추론 능력이 향상됨을 보였습니다. 또한, AoPS 포럼의 최신 데이터를 기반으로 오염에 강한 새로운 벤치마크인 LiveAoPSBench를 개발하여 LLM 성능을 평가했습니다. LiveAoPSBench를 통해 시간 경과에 따른 LLM 성능 저하를 관찰하여, 기존 벤치마크에서의 성공이 사전 학습 데이터 노출 때문일 가능성을 제시합니다. 본 연구는 고급 수학 추론을 위한 대규모 고품질 데이터셋을 생성 및 유지 관리하는 확장 가능한 접근 방식을 제시하며, 이 분야에서 LLM의 능력과 한계에 대한 귀중한 통찰력을 제공합니다.