Sign In

AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

Created by
  • Haebom
Category
Empty

저자

Shengnan An (Alphabetical order by last name), Xunliang Cai (Alphabetical order by last name), Xuezhi Cao (Alphabetical order by last name), Xiaoyu Li (Alphabetical order by last name), Yehao Lin (Alphabetical order by last name), Junlin Liu (Alphabetical order by last name), Xinxuan Lv (Alphabetical order by last name), Dan Ma (Alphabetical order by last name), Xuanlin Wang (Alphabetical order by last name), Ziwen Wang (Alphabetical order by last name), Shuang Zhou (Alphabetical order by last name)

개요

AMO-Bench는 올림피아드 수준 이상의 난이도를 가진 50개의 수작업 문제로 구성된 고급 수학적 추론 벤치마크입니다. 기존 벤치마크는 LLM의 수학적 추론 능력을 평가하기 위해 고등학교 수학 경시대회를 활용했지만, 이러한 경시대회가 성능 포화로 인해 상위 LLM을 평가하는 데 덜 효과적이 되고 있습니다. AMO-Bench는 50개 문제 모두가 (1) 전문가의 교차 검증을 통해 국제 수학 올림피아드(IMO) 난이도 이상을 충족하고, (2) 데이터 암기에서 발생할 수 있는 잠재적인 성능 누수를 방지하기 위해 완전히 독창적인 문제로 구성되어 더 엄격한 도전을 제시합니다. 또한, AMO-Bench의 각 문제는 증명이 아닌 최종 정답만을 요구하여 자동적이고 견고한 채점이 가능합니다. 26개의 LLM에 대한 실험 결과, 최고 성능 모델조차 52.4%의 정확도를 보였으며, 대부분의 LLM은 40% 미만의 점수를 기록했습니다. AMO-Bench는 LLM의 수학적 추론 능력 향상을 위한 추가 연구를 지원하기 위해 공개되었습니다.

시사점, 한계점

시사점:
AMO-Bench는 LLM의 고급 수학적 추론 능력을 평가하기 위한 새로운 벤치마크를 제공합니다.
IMO 난이도 이상의 문제를 통해 LLM의 한계를 더욱 명확하게 드러냅니다.
최고 성능 모델조차 52.4%의 낮은 정확도를 보이며, LLM의 수학적 추론 능력 개선의 여지가 많음을 시사합니다.
테스트 시 컴퓨팅 자원 증가에 따른 성능 향상 경향을 보이며, 컴퓨팅 자원 확충이 LLM 성능 개선에 기여할 수 있음을 시사합니다.
한계점:
AMO-Bench는 최종 정답만을 요구하므로, 모델의 추론 과정을 파악하는 데 한계가 있습니다.
50개의 문제로 구성되어 있어, 광범위한 수학적 추론 능력을 모두 평가하기에는 부족할 수 있습니다.
벤치마크가 특정 문제 유형에 편향되어 있을 가능성이 있습니다.
👍