본 논문은 Transformer 기반 모델의 일반화 능력, 특히 산술 추론 능력에 대한 이해를 심화시키고자 한다. 곱셈의 일관되지 않은 효율성과 모듈러 덧셈에서의 불규칙적인 일반화(예: 모듈러 100 대 101)와 같은 성능 이상 현상이 지속되는 산술 작업을 통해 Transformer의 일반화 능력을 탐구한다. 이를 위해 덧셈, 곱셈, 모듈러 연산에 대한 상세 분석을 통해 길이 일반화에 대한 통합적인 이론적 프레임워크를 개발한다. 덧셈에서의 변환 불변성은 강력한 일반화를 위한 상대적 위치 인코딩과 일치하는 반면, 모듈러 연산에서의 기저 불일치는 이러한 정렬을 방해한다는 것을 밝힌다. GPT 계열 모델에 대한 실험을 통해 제시된 프레임워크의 유효성을 검증하고, 일반화 행동을 예측하는 능력을 확인한다. 결론적으로, 데이터 효율적이고 구조 인식적인 학습을 달성하기 위한 작업 구조와 훈련 데이터 분포의 중요성을 강조하며, Transformer에서의 길이 일반화에 대한 체계적인 접근 방식을 제공한다.