Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs

Created by
  • Haebom

저자

Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour

개요

본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위한 새로운 벤치마크인 수학 주제 트리(MaTT)를 제시합니다. MaTT는 다양한 수학 분야에 걸쳐 1,958개의 질문과 각 질문에 대한 상세한 계층적 주제 체인을 제공합니다. GPT-4를 포함한 여러 LLM을 MaTT로 평가한 결과, GPT-4는 객관식 문제에서 54%의 정확도를 보였으며, Chain-of-Thought 프롬프팅을 사용해도 유의미한 향상이 나타나지 않았습니다. 객관식 선택지 없이 문제를 제시했을 때는 정확도가 최대 24.2%p까지 감소했습니다. 또한, 유사한 하위 주제에서도 LLM의 성능 차이가 크게 나타났으며, GPT-4의 정답에 대한 설명의 완전성과 정확성 분석 결과, 정답을 맞춘 경우에도 53.3%만이 완전하고 정확한 설명을 제공하여 진정한 추론을 수행한 것으로 나타났습니다.

시사점, 한계점

시사점:
기존의 LLM 수학적 추론 평가의 한계를 지적하고, 다양한 수학 분야를 포괄하는 새로운 벤치마크 MaTT를 제시했습니다.
최첨단 LLM인 GPT-4조차도 복잡한 수학 문제 해결에 어려움을 겪고 있음을 보여줍니다.
Chain-of-Thought 프롬프팅이 LLM의 수학적 추론 능력 향상에 큰 효과가 없음을 시사합니다.
LLM의 정답률이 선택지 유무에 따라 크게 달라짐을 확인했습니다.
LLM이 정답을 맞추더라도 진정한 추론 과정을 거치지 않을 수 있음을 보여줍니다.
한계점:
MaTT 벤치마크가 모든 유형의 수학적 추론 문제를 완벽하게 포괄하지 못할 수 있습니다.
GPT-4의 성능 분석에만 집중되어 다른 LLM에 대한 일반화 가능성이 제한적일 수 있습니다.
설명의 완전성과 정확성 평가가 주관적인 요소를 포함할 수 있습니다.
👍