본 논문은 Llama 3.1과 Qwen 3 계열 모델의 잔차 스트림을 분석하여 심층 언어 모델(LLM)의 깊이가 성능 향상에 미치는 영향을 연구합니다. 분석 결과, 모델의 후반부 레이어는 전반부 레이어에 비해 기여도가 훨씬 낮으며, 후반부 레이어를 건너뛰어도 미래 계산 및 출력 예측에 미치는 영향이 작다는 것을 발견했습니다. 또한, 다단계 작업에서 심층 모델이 하위 결과를 구성하여 깊이를 활용하는 증거를 찾지 못했습니다. 얕은 모델의 잔차 스트림과 심층 모델의 잔차 스트림 간 선형 매핑을 학습한 결과, 상대적인 깊이가 같은 레이어 간 매핑이 가장 잘 이루어져 심층 모델이 단순히 동일한 계산을 더 많은 레이어에 분산시키는 것으로 나타났습니다. 결론적으로, 심층 모델은 새로운 유형의 계산을 학습하는 데 깊이를 활용하는 것이 아니라, 잔차에 대한 보다 세분화된 조정을 수행하는 데 깊이를 사용한다는 것을 시사합니다. 이는 Transformer 아키텍처를 쌓아 규모를 확장함으로써 얻는 수익이 감소하는 이유를 설명하는 데 도움이 될 수 있습니다.