본 논문은 대규모 언어 모델(LLM)의 조합적 일반화 능력의 한계를 다루며, 주로 패턴 매칭에 의존하는 모델이 동일한 문맥에서 동일한 결과를 생성하는 조각들을 대체하는 것 이상으로는 신뢰할 수 있게 일반화할 수 없다는 "커버리지 원칙"을 제시합니다. 이 원칙을 통해 Transformer 모델의 일반화 능력을 예측할 수 있음을 실험적으로 증명합니다. 구체적으로, 두 단계 일반화에 필요한 훈련 데이터가 토큰 집합 크기에 따라 최소한 제곱적으로 증가하며, 매개변수 크기를 20배로 늘려도 훈련 데이터 효율이 향상되지 않음을 보입니다. 또한, 경로 모호성이 있는 조합적 작업에서 Transformer가 문맥 의존적 상태 표현을 학습하여 성능과 상호 운용성을 저해함을 보여줍니다. 마지막으로, 구조 기반, 속성 기반, 공유 연산자 기반의 세 가지 일반화 방식을 구분하는 메커니즘 기반 분류 체계를 제시하여, 체계적인 조합성을 달성하기 위해 새로운 아키텍처적 혁신이 필요함을 강조합니다.