Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics

Created by
  • Haebom

저자

Hamed Mahdavi, Alireza Hashemi, Majid Daliri, Pegah Mohammadipour, Alireza Farhadi, Samira Malek, Yekta Yazdanifard, Amir Khasahmadi, Vasant Honavar

개요

본 논문은 최신 대규모 언어 모델(LLMs)의 수학적 추론 능력을 심층적으로 평가한 연구 결과를 제시합니다. 기존 평가 기준이 주로 최종 답변의 정확성에 초점을 맞춘 반면, 본 연구는 수학 문제 해결에 필수적인 논리적 엄밀성을 중시하여, LLMs가 수학 올림피아드 수준의 문제를 풀 수 있다는 주장에 대한 검증을 시도합니다. LLMs가 생성한 증명에 대한 정성적 및 정량적 인간 평가와 자동 평가 체계를 개발하여, 현재 LLMs가 어려운 올림피아드 수준 문제 해결에는 크게 미흡하며, 올바른 수학적 추론과 명백히 잘못된 해결책을 구분하지 못하는 경우가 빈번하다는 것을 밝힙니다. 또한, LLMs가 가끔 제시하는 정답 역시 진정한 수학적 추론보다는 패턴 인식이나 휴리스틱 단축 경로에 기인한 것임을 발견하였습니다. 이는 고급 수학적 추론에서 LLM의 성능과 인간 전문가의 능력 사이에 상당한 차이가 있음을 강조하며, 최종 답변의 정확성이 아닌 수학적 주장의 엄밀성과 일관성을 우선시하는 평가 기준을 개발하는 것이 중요함을 시사합니다.

시사점, 한계점

시사점:
LLMs의 수학적 추론 능력에 대한 현실적인 평가 제공
최종 답변의 정확성보다 수학적 추론 과정의 엄밀성을 평가하는 새로운 기준 마련의 필요성 제시
LLM이 고급 수학 문제 해결에 있어 인간 전문가와의 상당한 성능 차이를 보임을 밝힘
LLM의 정답이 진정한 이해가 아닌, 패턴 인식이나 휴리스틱에 기반할 수 있음을 제시
한계점:
본 연구의 평가 체계가 모든 유형의 수학적 추론을 포괄하지 못할 가능성
인간 평가의 주관성에 대한 고려 필요
향후 더욱 발전된 LLM의 성능에 대한 일반화의 제한
👍