본 논문은 대규모 언어 모델(LLM)의 수리 추론 능력 부족 문제를 해결하기 위해, 숫자 인식, 산술 연산, 상황적 검색, 비교, 요약, 논리적 추론 등 6가지 기본적인 수리 능력을 평가하는 포괄적인 벤치마크인 NumericBench를 제안합니다. 기존 벤치마크들이 언어 능력이나 구조화된 수학 문제 해결에만 초점을 맞춘 것과 달리, NumericBench는 합성 숫자 목록부터 실제 데이터까지 다양한 데이터셋을 포함하여 긴 맥락, 노이즈, 다단계 추론과 같은 실제 시나리오의 어려움을 다룹니다. GPT-4와 DeepSeek을 포함한 최첨단 LLM에 대한 광범위한 실험을 통해 수리 추론에 대한 지속적인 약점을 밝히고, 수치 인식 언어 모델링 개선의 필요성을 강조합니다. NumericBench는 https://github.com/TreeAI-Lab/NumericBench 에서 공개됩니다.