본 논문은 Llama 3.1과 Qwen 3 계열 모델의 잔차 스트림을 분석하여 심층 LLM의 깊이가 성능 향상에 기여하는 방식을 조사합니다. 분석 결과, 모델의 후반부 레이어는 전반부 레이어보다 기여도가 훨씬 낮으며, 후반부 레이어를 건너뛰어도 향후 계산 및 출력 예측에 미치는 영향이 작다는 것을 발견했습니다. 또한 다단계 작업에서 모델이 깊이를 활용하여 하위 결과를 구성한다는 증거를 찾지 못했습니다. 얕은 모델의 잔차 스트림에서 깊은 모델로의 선형 매핑을 학습시킨 결과, 상대적인 깊이가 같은 레이어가 서로 가장 잘 매핑되는 것을 확인하여, 더 깊은 모델은 단순히 동일한 계산을 여러 레이어에 걸쳐 분산시킨다는 것을 시사합니다. 결론적으로, 더 깊은 모델은 새로운 유형의 계산을 학습하는 데 깊이를 사용하는 것이 아니라, 잔차에 대한 보다 세분화된 조정을 수행하는 데 깊이를 사용한다는 것을 제시하며, 이는 스택된 Transformer 아키텍처에서 규모를 늘리는 것이 수익 감소로 이어지는 이유를 설명하는 데 도움이 될 수 있습니다.