본 논문은 기존의 대규모 언어 모델(LLM)의 수학적 추론 평가 벤치마크가 경쟁 문제, 형식적 증명 또는 인위적으로 어려운 질문에 주로 의존하여 실제 연구 환경에서 접하는 수학의 본질을 포착하지 못한다는 점을 지적한다. 연구 논문과 수학 포럼에서 직접 추출한 새로운 벤치마크인 RealMath를 제시하여 LLM의 실제 수학적 과제 해결 능력을 평가한다. 다양한 연구 수준의 콘텐츠 소싱, 검증 가능한 진술을 통한 신뢰할 수 있는 자동 평가 가능성, 오염 위험을 완화하기 위한 지속적으로 새로 고침되는 데이터셋 설계라는 세 가지 중요한 과제를 해결한다. 여러 LLM에 대한 실험 결과는 경쟁 문제에 비해 연구 수학을 다루는 놀라운 능력을 보여주며, 매우 어려운 문제에 대한 한계에도 불구하고 현재 모델이 이미 수학 연구자에게 귀중한 조력자 역할을 할 수 있음을 시사한다. RealMath의 코드와 데이터셋은 공개적으로 이용 가능하다.