Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models

Created by
  • Haebom

저자

Haoyang Li, Xuejia Chen, Zhanchao XU, Darian Li, Nicole Hu, Fei Teng, Yiming Li, Luyu Qiu, Chen Jason Zhang, Qing Li, Lei Chen

개요

본 논문은 대규모 언어 모델(LLM)의 수리 추론 능력 부족 문제를 해결하기 위해, 숫자 인식, 산술 연산, 상황적 검색, 비교, 요약, 논리적 추론 등 6가지 기본적인 수리 능력을 평가하는 포괄적인 벤치마크인 NumericBench를 제안합니다. 기존 벤치마크들이 언어 능력이나 구조화된 수학 문제 해결에만 초점을 맞춘 것과 달리, NumericBench는 합성 숫자 목록부터 실제 데이터까지 다양한 데이터셋을 포함하여 긴 맥락, 노이즈, 다단계 추론과 같은 실제 시나리오의 어려움을 다룹니다. GPT-4와 DeepSeek을 포함한 최첨단 LLM에 대한 광범위한 실험을 통해 수리 추론에 대한 지속적인 약점을 밝히고, 수치 인식 언어 모델링 개선의 필요성을 강조합니다. NumericBench는 https://github.com/TreeAI-Lab/NumericBench 에서 공개됩니다.

시사점, 한계점

시사점:
LLM의 수리 추론 능력의 부족을 체계적으로 평가할 수 있는 새로운 벤치마크 NumericBench 제시.
실제 세계 시나리오를 반영하는 다양한 데이터셋을 포함하여 현실적인 평가 가능.
최첨단 LLM의 수리 추론 능력의 한계를 명확히 제시하여 향후 연구 방향 제시.
NumericBench의 공개를 통해 LLM의 수리 추론 능력 향상을 위한 연구 활성화 기대.
한계점:
NumericBench가 포괄적이지만, 모든 종류의 수리 추론 과제를 완벽하게 다루지는 못할 수 있음.
벤치마크의 성능은 사용된 데이터셋과 평가 지표에 따라 영향을 받을 수 있음.
제시된 6가지 기본적인 수리 능력 외에 다른 중요한 수리 능력이 있을 수 있음.
👍