본 논문은 최신 대규모 언어 모델(LLMs)의 수학적 추론 능력을 심층적으로 평가한 연구 결과를 제시합니다. 기존 평가 기준이 주로 최종 답변의 정확성에 초점을 맞춘 반면, 본 연구는 수학 문제 해결에 필수적인 논리적 엄밀성을 중시하여, LLMs가 수학 올림피아드 수준의 문제를 풀 수 있다는 주장에 대한 검증을 시도합니다. LLMs가 생성한 증명에 대한 정성적 및 정량적 인간 평가와 자동 평가 체계를 개발하여, 현재 LLMs가 어려운 올림피아드 수준 문제 해결에는 크게 미흡하며, 올바른 수학적 추론과 명백히 잘못된 해결책을 구분하지 못하는 경우가 빈번하다는 것을 밝힙니다. 또한, LLMs가 가끔 제시하는 정답 역시 진정한 수학적 추론보다는 패턴 인식이나 휴리스틱 단축 경로에 기인한 것임을 발견하였습니다. 이는 고급 수학적 추론에서 LLM의 성능과 인간 전문가의 능력 사이에 상당한 차이가 있음을 강조하며, 최종 답변의 정확성이 아닌 수학적 주장의 엄밀성과 일관성을 우선시하는 평가 기준을 개발하는 것이 중요함을 시사합니다.
시사점, 한계점
•
시사점:
◦
LLMs의 수학적 추론 능력에 대한 현실적인 평가 제공
◦
최종 답변의 정확성보다 수학적 추론 과정의 엄밀성을 평가하는 새로운 기준 마련의 필요성 제시