Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can reasoning models comprehend mathematical problems in Chinese ancient texts? An empirical study based on data from Suanjing Shishu

Created by
  • Haebom

저자

Liu Chang, Wang Dongbo, Liu liu, Zhao Zhixiao

개요

본 연구는 고대 중국 수학 경전을 지능적으로 처리하는 과정의 어려움을 해결하기 위해, 《산경십서》를 기반으로 고전 문헌 평가 벤치마크인 Guji_MATH를 구축했습니다. 고전 중국어의 독특한 언어적 제약 하에서 주요 추론 모델의 수학적 문제 해결 능력을 체계적으로 평가합니다. 기계 지원 주석 및 수동 검증을 통해 8개의 정전에서 538개의 수학 문제를 추출하여 "문제-답-해법" 프레임워크를 중심으로 구조화된 데이터셋을 구성하고, 문제 유형 및 난이도를 추가했습니다. 폐쇄형(자율적 문제 해결) 및 개방형(고전적 해법 재현) 두 가지 평가 방식을 설계하여 6가지 추론 모델의 고대 중국 수학 문제 해결 성능을 평가했습니다. 결과적으로 추론 모델이 문제를 부분적으로 이해하고 해결할 수 있음을 보였지만, 현대 수학 과제에 대한 벤치마크보다 전반적인 성능이 낮았습니다. 모델의 고전 중국어 이해력과 문화적 지식 향상을 우선시해야 합니다. 본 연구는 고대 문헌에서 수학적 지식을 발굴하고 전통 문화를 전파하는 데 대한 방법론적 지원을 제공하며, 추론 모델의 언어 간 및 문화 간 능력 평가에 대한 새로운 관점을 제시합니다.

시사점, 한계점

시사점:
고대 중국 수학 경전 분석을 위한 새로운 벤치마크 (Guji_MATH) 제공
고전 중국어의 언어적 제약 하에서 추론 모델의 수학적 문제 해결 능력 평가
고대 문헌에서 수학적 지식 발굴 및 전통 문화 전파에 대한 방법론적 지원
추론 모델의 언어 간 및 문화 간 능력 평가에 대한 새로운 관점 제시
한계점:
추론 모델의 전반적인 성능이 현대 수학 과제에 대한 벤치마크보다 낮음
모델의 고전 중국어 이해력 및 문화적 지식 향상의 필요성
👍