Sign In

MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation

Created by
  • Haebom
Category
Empty

μ €μž

Tianyi Xu, Kosei Uemura, Alfred Malengo Kondoro, Tadesse Destaw Belay, Catherine Nana Nyaah Essuman, Ifeoma Okoh, Ganiyat Afolabi, Ayodele Awokoya, David Ifeoluwa Adelani

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€κ΅­μ–΄ μˆ˜ν•™ μΆ”λ‘  평가λ₯Ό μœ„ν•œ MGSM-Pro 데이터셋을 μ œμ•ˆν•˜λ©°, μ΄λŠ” κΈ°μ‘΄ MGSM 데이터셋에 GSM-Symbolic 접근법을 ν™•μž₯ν•œ κ²ƒμž…λ‹ˆλ‹€. λ‹€μ–‘ν•œ 이름, 숫자, κ΄€λ ¨ μ—†λŠ” λ§₯락 λ³€ν™”λ₯Ό 톡해 동일 μ§ˆλ¬Έμ— λŒ€ν•œ μ—¬λŸ¬ μΈμŠ€ν„΄μŠ€λ₯Ό μƒμ„±ν•˜μ—¬ λͺ¨λΈμ˜ 견고성을 ν‰κ°€ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 특히 μ €μžμ› μ–Έμ–΄μ—μ„œ 숫자 변화에 λ”°λ₯Έ μ„±λŠ₯ μ €ν•˜κ°€ 크며, κ³ μžμ› μ–Έμ–΄μ—μ„œμ˜ 견고성이 μ €μžμ› μ–Έμ–΄λ‘œ 이어지지 μ•ŠμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‹€κ΅­μ–΄ μˆ˜ν•™ μΆ”λ‘  λͺ¨λΈ 평가 μ‹œ, λ‹¨μˆœν•œ 질문 외에 λ‹€μ–‘ν•œ 숫자 λ³€ν™”λ₯Ό ν¬ν•¨ν•œ μ—¬λŸ¬ μΈμŠ€ν„΄μŠ€λ‘œ 평가해야 보닀 ν˜„μ‹€μ μ΄κ³  κ²¬κ³ ν•œ μ„±λŠ₯ 츑정이 κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
κ³ μžμ› μ–Έμ–΄(HRL)μ—μ„œμ˜ μš°μˆ˜ν•œ μ„±λŠ₯이 μ €μžμ› μ–Έμ–΄(LRL)둜 λ°˜λ“œμ‹œ μ „μ΄λ˜μ§€ μ•ŠμœΌλ―€λ‘œ, 각 언어별 νŠΉμ„±μ„ κ³ λ €ν•œ 평가와 λͺ¨λΈ 개발이 μ€‘μš”ν•©λ‹ˆλ‹€.
β€’
일뢀 μƒμš© λͺ¨λΈ(Gemini 2.5 Flash, GPT-4.1)은 μˆ«μžμ— 덜 κ²¬κ³ ν•œ 반면, Gemini 3.0 Pro 및 μ˜€ν”ˆ μ†ŒμŠ€ λͺ¨λΈ(GPT-OSS 120B, DeepSeek v3)은 더 λ‚˜μ€ 견고성을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ MGSM-Pro 데이터셋은 언어별, 숫자 변화에 λ”°λ₯Έ λͺ¨λΈμ˜ 견고성을 μ‹¬μΈ΅μ μœΌλ‘œ 뢄석할 수 μžˆλŠ” 도ꡬλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” 더 λ‹€μ–‘ν•œ 언어와 μΆ”λ‘  μœ ν˜•μ— λŒ€ν•œ 데이터셋 ν™•μž₯ 및 λͺ¨λΈμ˜ 견고성 ν–₯상을 μœ„ν•œ μƒˆλ‘œμš΄ ν•™μŠ΅ 방법둠 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘