본 논문은 대규모 언어 모델(LLM)의 일반화 및 추론 능력에 대한 기존 평가의 한계를 지적한다. GPT-4나 Claude 3 Opus와 같은 최첨단 LLM들이 표준화된 벤치마크에서 높은 점수를 기록하지만, 간단한 상식 수학 문제(AIW 문제)에 대한 극적인 성능 저하를 보임을 실험적으로 증명한다. AIW 문제는 인간에게는 쉽게 풀리지만, LLM들은 낮은 평균 정확도와 문제 표현의 사소한 변화에도 큰 성능 변동을 보인다. 자연어 처리나 숫자 파싱과 같은 저수준 문제가 아님을 추가적인 제어 실험으로 확인하고, 잘못된 답변에 대한 과도한 자신감과 그럴듯한 설명(confabulation)을 생성하는 현상도 관찰한다. Chain-of-thought 프롬프팅이나 다단계 재평가와 같은 표준적인 개입 방법도 효과가 없음을 보이며, 현재 LLM의 능력에 대한 재평가와 LLM의 일반화 및 추론 능력의 결함을 제대로 감지할 수 있는 표준화된 벤치마크의 필요성을 강조한다.