본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 평가에 사용되는 GSM8K 벤치마크의 한계를 지적하고, 이를 개선하기 위해 새로운 벤치마크인 GSM-Symbolic을 제시합니다. GSM-Symbolic은 기호 템플릿을 사용하여 다양한 유형의 수학 문제를 생성하며, 기존 평가의 한계를 극복하여 더욱 신뢰할 수 있는 측정 지표를 제공합니다. 연구 결과, SOTA LLM들은 동일한 문제의 다른 변형에 대해 성능 차이를 보이며, 특히 문제 내 숫자 값만 변경해도 성능이 저하됨을 확인했습니다. 또한, 문제의 절(clause) 수가 증가할수록 성능이 크게 저하되는 취약성을 보였는데, 이는 LLM들이 진정한 논리적 추론을 수행하지 못하고 훈련 데이터에서 추론 단계를 모방하기 때문으로 추측합니다. 관련 없는 절 하나만 추가해도 성능이 최대 65%까지 저하되는 현상을 발견했습니다. 결론적으로, 본 연구는 LLM의 수학적 추론 능력에 대한 더욱 정교한 이해를 제공합니다.