# MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation

### 저자

Tianyi Xu, Kosei Uemura, Alfred Malengo Kondoro, Tadesse Destaw Belay, Catherine Nana Nyaah Essuman, Ifeoma Okoh, Ganiyat Afolabi, Ayodele Awokoya, David Ifeoluwa Adelani

### 💡 개요

본 논문은 다국어 수학 추론 평가를 위한 MGSM-Pro 데이터셋을 제안하며, 이는 기존 MGSM 데이터셋에 GSM-Symbolic 접근법을 확장한 것입니다. 다양한 이름, 숫자, 관련 없는 맥락 변화를 통해 동일 질문에 대한 여러 인스턴스를 생성하여 모델의 견고성을 평가합니다. 실험 결과, 특히 저자원 언어에서 숫자 변화에 따른 성능 저하가 크며, 고자원 언어에서의 견고성이 저자원 언어로 이어지지 않음을 보여줍니다.

### 🔑 시사점 및 한계

- 다국어 수학 추론 모델 평가 시, 단순한 질문 외에 다양한 숫자 변화를 포함한 여러 인스턴스로 평가해야 보다 현실적이고 견고한 성능 측정이 가능합니다.

- 고자원 언어(HRL)에서의 우수한 성능이 저자원 언어(LRL)로 반드시 전이되지 않으므로, 각 언어별 특성을 고려한 평가와 모델 개발이 중요합니다.

- 일부 상용 모델(Gemini 2.5 Flash, GPT-4.1)은 숫자에 덜 견고한 반면, Gemini 3.0 Pro 및 오픈 소스 모델(GPT-OSS 120B, DeepSeek v3)은 더 나은 견고성을 보였습니다.

- 제안된 MGSM-Pro 데이터셋은 언어별, 숫자 변화에 따른 모델의 견고성을 심층적으로 분석할 수 있는 도구를 제공합니다.

- 향후 과제로는 더 다양한 언어와 추론 유형에 대한 데이터셋 확장 및 모델의 견고성 향상을 위한 새로운 학습 방법론 개발이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2601.21225)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
