본 논문은 사전 학습된 언어 모델이 알고리즘적 과제를 얼마나 신뢰할 수 있게 수행하는지, 특히 이전에 보지 못한 입력/출력 영역에서도 그 성능을 유지하는지를 평가하는 새로운 벤치마크인 AttentionSpan을 제안합니다. AttentionSpan은 무한한 입력 영역을 가진 다섯 가지 과제로 구성되어 있으며, 모델의 알고리즘적 이해 능력과 단순 암기 여부를 구분할 수 있도록 설계되었습니다. 이를 통해 모델이 새로운 길이, 값 범위 또는 입력 영역을 포함한 보지 못한 입력 유형에 일반화하는 능력과 학습된 메커니즘의 강건성을 평가할 수 있습니다. 논문은 어텐션 맵 분석과 표적화된 개입을 통해 어텐션 메커니즘이 일반화 실패의 직접적인 원인임을 보여줍니다. 모든 과제와 해석 가능성 방법의 구현은 공개적으로 제공됩니다.