Sign In

Towards Robust Mathematical Reasoning

Created by
  • Haebom
Category
Empty

저자

Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung

IMO-Bench: 수학적 추론 능력 향상을 위한 새로운 벤치마크

개요

본 논문은 파운데이션 모델의 수학적 추론 능력을 향상시키기 위해 개발된 새로운 벤치마크인 IMO-Bench를 소개합니다. IMO-Bench는 국제 수학 올림피아드 (IMO) 수준의 문제를 대상으로 하며, 기존 평가의 쉬운 난이도와 짧은 답변에만 초점을 맞춘다는 단점을 해결합니다. IMO-Bench는 검증 가능한 짧은 답을 요구하는 IMO-AnswerBench (400문제)와 증명 작성을 평가하는 IMO-ProofBench (기본 및 고급 IMO 수준 문제, 자동 채점 가이드라인 포함)로 구성됩니다. 이 벤치마크는 Gemini Deep Think 모델의 IMO 2025 금메달 획득에 기여했으며, IMO-AnswerBench에서 80.0%, 고급 IMO-ProofBench에서 65.7%의 성능을 달성했습니다. 또한, Gemini를 활용한 자동 채점기가 인간 평가와 높은 상관관계를 보임을 확인하고, 긴 형식의 답변 자동 평가 발전을 위해 IMO-GradingBench (1000개의 인간 채점)를 구축했습니다.

시사점, 한계점

시사점:
파운데이션 모델의 수학적 추론 능력 평가를 위한 새로운 벤치마크 제공 (IMO 수준).
IMO-AnswerBench 및 IMO-ProofBench를 통해 다양한 평가 가능.
Gemini Deep Think 모델의 IMO 2025 금메달 획득에 기여.
자동 채점기의 인간 평가 상관관계 확인 및 IMO-GradingBench 구축으로 자동 평가 발전 가능성 제시.
한계점:
논문 자체에서 구체적인 한계점을 명시하지 않음.
IMO-Bench가 특정 모델 (Gemini Deep Think)에 최적화되었을 가능성이 있음.
자동 채점의 정확성 및 일반화 가능성에 대한 추가 연구 필요.
👍