본 논문은 Transformer 모델이 정보를 처리하는 방식에 대한 이해를 심화시키고자, Transformer 내 존재하는 '고립(isolation)'과 '연속성(continuity)'이라는 두 가지 현상을 규명합니다. 고립 현상은 학습 가능한 시퀀스들이 서로 분리되어야 함을, 즉 단일 Transformer가 동시에 여러 시퀀스를 학습할 수 없음을 의미합니다. 연속성 현상은 학습된 시퀀스 주변에 인력 분지(attractor basin)가 형성되어, 그 분지 내에 있는 다른 시퀀스들이 학습된 시퀀스로 붕괴됨을 의미합니다. 논문에서는 압축 위치 인코딩을 사용하는 모든 Transformer에서 이러한 현상이 수학적으로 발생함을 증명하고, 이론적 한계가 실제적으로도 나타남을 보여주는 실험 결과를 제시합니다.