본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 내부 메커니즘을 분석하여 성능 향상의 원인을 규명하고자 한다. Jacobian 행렬을 이용하여 토큰 임베딩의 경로를 선형화함으로써, 다양한 LLM에서 Transformer 블록 간의 결합(coupling) 현상을 발견하였다. 이는 토큰과 깊이에 걸쳐 상위 특이값 벡터들이 서로 결합하는 것을 의미한다. 연구 결과, 이러한 결합은 모델 성능과 정적 상관관계를 가지며, 파라미터 수, 모델 깊이, 임베딩 차원 등 다른 하이퍼파라미터보다 더 강한 상관관계를 보이는 것으로 나타났다. 또한, 훈련 과정에서 결합, 선형성 증가, 토큰 경로의 계층별 지수적 성장이 진행됨을 관찰하였고, Vision Transformer(ViT) 실험을 통해서도 이러한 결합 현상과 일반화 성능 간의 관계를 확인하였다. 이러한 결과는 Transformer 내 토큰 상호작용에 대한 새로운 관점을 제공하며, 모델 메커니즘 연구 및 훈련/일반화 성능 개선을 위한 새로운 방향을 제시한다.