본 논문은 다양한 작업에서 시퀀스 학습에 뛰어난 성능을 보이는 Transformer 기반 모델의 다중 작업 일반화 능력에 대한 이론적 이해를 높이기 위해, Transformer의 계층별 동작을 조사합니다. Hidden Markov Models (HMMs)과 같은 전형적인 시퀀스 모델을 통해, Transformer의 하위 계층은 주로 인접 토큰의 영향을 받는 특징 표현 추출에 집중하고, 상위 계층에서는 특징이 분리되어 시간적 얽힘이 크게 감소함을 관찰합니다. 이러한 경험적 통찰을 바탕으로 Transformer의 표현 능력에 대한 이론적 분석을 제공하며, 이론적 구성이 경험적 관찰과 일치하여 다양한 작업에 걸친 시퀀스 학습에서 Transformer의 효율성과 효과에 대한 이론적 지원을 제공합니다.