본 논문은 대규모 언어 모델(LLM)의 깊은 층이 표현 학습에 기여하는 정도에 대한 기존 연구의 한계를 지적하고, 다양한 평가 방법, 작업 유형, 모델 아키텍처를 통해 깊이 활용도를 체계적으로 연구한다. 그 결과, 초기 층이 중요하지만, 생성 기반 평가에서는 중간 및 깊은 층이 추론과 장거리 일관성을 유지하는 데 필수적임을 밝혀냈다. 또한, 지식과 검색은 얕은 층에 집중되어 있고, 추론 정확도는 깊은 층에 크게 의존하지만, 증류를 통해 재구성될 수 있음을 확인했다.