Robert Csordas, Christopher D. Manning, Christopher Potts
개요
본 논문은 현대 LLM의 깊이가 성능 향상에 미치는 영향에 대한 효율성을 분석한다. Llama 3.1, Qwen 3, 그리고 OLMo 2 모델 제품군의 잔차 스트림을 분석하여, 모델이 깊이를 효율적으로 활용하는지, 또는 단순히 동일한 계산을 여러 레이어에 분산하는지를 조사한다. 연구 결과, 후반부 레이어의 기여도가 낮고, 깊은 모델이 새로운 종류의 계산을 학습하기보다는 세밀한 조정을 위해 더 많은 레이어를 사용한다는 것을 발견했다.
시사점, 한계점
•
모델의 후반부 레이어는 전반부 레이어보다 기여도가 낮다.
•
후반부 레이어의 생략은 미래 계산 및 출력 예측에 미치는 영향이 적다.
•
다단계 작업에서 모델이 증가된 깊이를 사용하여 하위 결과를 구성한다는 증거를 찾을 수 없었다.
•
더 깊은 모델이 새로운 종류의 계산을 수행하는지 확인하기 위해 선형 맵을 훈련한 결과, 상대적 깊이가 같은 레이어가 서로 가장 잘 매핑되었다.
•
깊이가 증가함에 따라 스케일링의 수익률이 감소하는 이유를 설명할 수 있다.
•
연구는 Llama 3.1, Qwen 3, OLMo 2 모델 제품군에 한정되어 있으며, 다른 아키텍처 및 모델에 대한 일반화가 제한될 수 있다.