본 논문은 Transformer 언어 모델의 일반화 능력, 특히 짧은 입력으로부터 긴 입력으로의 외삽 능력(length generalization)을, 작업 연관성(task association)이라는 관점에서 연구합니다. 연구 결과, 관련된 보조 작업(auxiliary task)을 이용하여 학습시키면, 다른 목표 작업(target task)의 더 긴, 미지의 입력에 대한 일반화 능력을 전이(transfer)할 수 있음을 보여줍니다. 산술 연산, 문자열 변환, 미로 탐색 등 다양한 알고리즘 작업에서 이러한 길이 일반화 전이를 실험적으로 증명하고, 사전 학습된 언어 모델에서도 유사한 전이 효과를 관찰합니다. 이는 사전 학습이 모델에 하류 작업에서 외삽을 용이하게 하는 재사용 가능한 계산적 기반(computational scaffolding)을 제공함을 시사합니다. 마지막으로, 길이 일반화 전이는 작업 간 동일한 어텐션 헤드의 재사용과 상관관계가 있음을 보여주는 초기 기계적 증거를 제공합니다. 결론적으로, 본 연구는 Transformer 모델이 분포 외 입력에 대해 어떻게 일반화하는지에 대한 이해를 심화시키고, 작업 간 유도적 구조의 구성적인 재사용을 강조합니다.