Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can reasoning models comprehend mathematical problems in Chinese ancient texts? An empirical study based on data from Suanjing Shishu

Created by
  • Haebom

저자

Chang Liu, Dongbo Wang, Liu liu, Zhixiao Zhao

개요

본 연구는 수학사에 중요한 기여를 한 중국 고대 수학 경전인 《산경십서》를 기반으로 고전 수학 문제 해결 능력 평가를 위한 벤치마크, Guji_MATH를 구축하여 중국 고전 수학 경전의 지능형 처리 과제를 해결하고자 하였다. 8종의 경전에서 추출한 538개의 수학 문제를 "문제-답-풀이" 구조의 구조화된 데이터셋으로 구성하고, 문제 유형과 난이도를 추가하였다. 6개의 추론 모델을 대상으로 폐쇄형(자율적 문제 해결)과 개방형(고전적 풀이 방법 재현) 두 가지 평가 방식을 통해 고전 중국어 수학 문제 해결 능력을 평가하였다. 결과적으로 추론 모델이 부분적으로 문제를 이해하고 해결할 수 있음을 보였으나, 현대 수학 과제에 대한 벤치마크 성능에는 미치지 못하였다. 모델의 고전 중국어 이해력과 문화적 지식 향상이 최우선 과제임을 시사한다. 본 연구는 고대 경전에서 수학적 지식을 추출하고 전통 문화를 보급하는 데 방법론적 지원을 제공하며, 추론 모델의 언어 간 및 문화 간 능력 평가에 대한 새로운 관점을 제시한다.

시사점, 한계점

시사점:
고전 중국어 수학 문제 해결을 위한 새로운 벤치마크 Guji_MATH를 제시하였다.
고전 중국어의 언어적 제약 하에서 주요 추론 모델의 수학 문제 해결 능력을 체계적으로 평가하였다.
추론 모델의 고전 중국어 이해력 및 문화적 지식의 중요성을 강조하였다.
고대 경전에서 수학적 지식 발굴 및 전통 문화 보급에 기여할 수 있는 방법론적 토대를 마련하였다.
추론 모델의 언어 간 및 문화 간 능력 평가에 대한 새로운 관점을 제시하였다.
한계점:
현재 추론 모델의 성능은 현대 수학 과제에 대한 벤치마크 성능에 미치지 못한다.
고전 중국어 이해 및 문화적 지식 향상을 위한 추가적인 연구가 필요하다.
Guji_MATH 데이터셋의 규모가 더욱 확장될 필요가 있다.
👍