Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Language Models Use Their Depth Efficiently?

Created by
  • Haebom

저자

Robert Csordas, Christopher D. Manning, Christopher Potts

개요

본 논문은 현대 LLM의 깊이가 성능 향상에 미치는 영향에 대한 효율성을 분석한다. Llama 3.1, Qwen 3, 그리고 OLMo 2 모델 제품군의 잔차 스트림을 분석하여, 모델이 깊이를 효율적으로 활용하는지, 또는 단순히 동일한 계산을 여러 레이어에 분산하는지를 조사한다. 연구 결과, 후반부 레이어의 기여도가 낮고, 깊은 모델이 새로운 종류의 계산을 학습하기보다는 세밀한 조정을 위해 더 많은 레이어를 사용한다는 것을 발견했다.

시사점, 한계점

모델의 후반부 레이어는 전반부 레이어보다 기여도가 낮다.
후반부 레이어의 생략은 미래 계산 및 출력 예측에 미치는 영향이 적다.
다단계 작업에서 모델이 증가된 깊이를 사용하여 하위 결과를 구성한다는 증거를 찾을 수 없었다.
더 깊은 모델이 새로운 종류의 계산을 수행하는지 확인하기 위해 선형 맵을 훈련한 결과, 상대적 깊이가 같은 레이어가 서로 가장 잘 매핑되었다.
깊이가 증가함에 따라 스케일링의 수익률이 감소하는 이유를 설명할 수 있다.
연구는 Llama 3.1, Qwen 3, OLMo 2 모델 제품군에 한정되어 있으며, 다른 아키텍처 및 모델에 대한 일반화가 제한될 수 있다.
선형 맵을 사용한 분석은 모델의 복잡한 계산 방식을 완전히 포착하지 못할 수 있다.
👍