본 논문은 고대 중국 수학 경전의 지능적 처리 과정에서 발생하는 어려움을 해결하기 위해, '구적십서(Suanjing Shishu)'를 기반으로 고전 텍스트 평가를 위한 벤치마크인 Guji_MATH를 구축한 연구입니다. 8개의 경전에서 추출한 538개의 수학 문제를 "문제-답-풀이" 구조의 구조화된 데이터셋으로 구성하고, 문제 유형과 난이도를 추가했습니다. 6개의 추론 모델을 대상으로 폐쇄형(자율적 문제 해결) 및 개방형(고전적 해결 방법 재현) 두 가지 평가 방식을 설계하여 고대 중국 수학 문제 해결 능력을 평가했습니다. 결과적으로 추론 모델이 문제를 부분적으로 이해하고 해결할 수 있음을 보였지만, 현대 수학 과제에 대한 벤치마크보다 성능이 떨어지는 것으로 나타났습니다. 고전 중국어 이해력과 문화적 지식 향상이 모델 최적화를 위한 우선순위임을 시사합니다. 고대 텍스트에서 수학적 지식을 발굴하고 전통 문화를 보급하는 데 방법론적 지원을 제공하며, 추론 모델의 언어 간 및 문화 간 능력 평가에 대한 새로운 관점을 제시합니다.