본 논문은 대규모 언어 모델(LLM)의 일반화 능력을 평가하기 위한 "일반화 스트레스 테스트"를 제안합니다. 옵션 길이, 문제 유형, 무관한 명사 대체 등의 사소하고 통제된 변화를 가하여 LLM의 일반화 능력을 평가합니다. 실험 결과, 높은 벤치마크 점수에도 불구하고 LLM은 이러한 사소하지만 내용을 보존하는 수정에 직면했을 때 심각한 정확도 저하와 예상치 못한 편향(예: 더 긴 오답 선호)을 보이는 것을 발견했습니다. 예를 들어, Qwen 2.5 1.5B의 MMLU 점수는 옵션 길이가 변경될 때 60에서 89로 상승하지만, 질문은 변경되지 않은 상태에서 89에서 36으로 하락합니다. GPT-4조차도 문제 유형이 변경될 때 25점의 정확도 손실을 경험하며, 세 가지 수정 범주 모두에서 6점 감소합니다. 이러한 분석은 LLM이 형식, 어휘 변화 및 무관한 콘텐츠 변화에 걸쳐 일반화되는 강력하고 추상적인 표현을 형성하기보다는 표면적인 단서에 크게 의존함을 시사합니다.