본 논문은 대규모 언어 모델(LLM)의 성공을 이끄는 내부 메커니즘에 대한 이해를 심화시키고자, 토큰 임베딩의 궤적을 분석합니다. 트랜스포머 블록을 통과하는 토큰 임베딩의 궤적을 자코비안 행렬을 통해 선형화하여 분석한 결과, 다수의 LLM에서 토큰과 깊이에 걸쳐 상위 특이값 벡터의 결합을 특징으로 하는 "트랜스포머 블록 결합" 현상을 발견했습니다. 연구 결과, 이러한 결합은 모델 성능과 정(+)의 상관관계를 보이며, 매개변수 수, 모델 깊이, 임베딩 차원과 같은 다른 하이퍼파라미터보다 더 강한 상관관계를 나타냅니다. 훈련 과정에서 결합의 점진적인 발전, 선형성 증가, 토큰 궤적의 계층적 지수적 성장을 관찰했습니다. Vision Transformer(ViT)를 이용한 추가 실험을 통해 결합의 출현과 일반화 성능 간의 상관관계를 확인하여 LLM에서의 연구 결과를 보완했습니다. 이러한 통찰력은 트랜스포머에서 토큰 상호 작용에 대한 새로운 관점을 제공하며, 훈련 및 일반화를 연구하고 개선하기 위한 새로운 방향을 제시합니다.