본 논문은 대규모 언어 모델(LLM)의 숫자 이해 및 처리 능력(NUPA)에 대한 포괄적인 연구를 제시합니다. 기존 연구들이 제한적인 수학적 과제(예: 정수 덧셈)에만 초점을 맞춘 것과 달리, 본 논문은 초·중등 교육 과정에서 파생된 4가지 수 표현 방식과 17가지 다양한 수학적 과제를 포함하는 벤치마크를 제시합니다. 이 벤치마크를 통해 현재 LLM들이 다수의 과제에서 자주 실패하는 것을 발견하고, 토큰화, 위치 인코딩, 숫자 형식과 같은 기법들을 활용하여 NUPA 향상을 위한 소규모 모델 훈련 및 실용적 규모의 LLM 파인튜닝을 수행합니다. 파인튜닝을 통해 일부 과제에서 NUPA 향상을 확인했지만, NUPA 향상을 위한 특정 기법들이 사전 훈련된 모델의 파인튜닝에는 효과적이지 않음을 발견했습니다. 또한, 사고연쇄 기법의 영향도 분석합니다. 결과적으로 본 논문은 LLM의 NUPA에 대한 보다 자세하고 포괄적인 이해를 제공하며, 제시된 벤치마크와 코드는 공개합니다.