Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Curse of Depth in Large Language Models

Created by
  • Haebom

저자

Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu

개요

본 논문은 최근 대규모 언어 모델(LLM)에서 관찰되는 현상인 "깊이의 저주(Curse of Depth)"를 소개하고 설명하며 해결 방안을 제시합니다. "깊이의 저주"란 LLM의 절반 가까운 층이 예상보다 효과적이지 않은 현상을 의미합니다. Llama, Mistral, DeepSeek, Qwen과 같은 주요 LLM에서 이 현상이 광범위하게 존재함을 확인하고, 이 현상의 근본 원인이 Pre-Layer Normalization(Pre-LN)의 광범위한 사용에 있다고 주장합니다. Pre-LN은 Transformer LLM의 학습을 안정화시키지만, 출력 분산이 모델 깊이에 따라 기하급수적으로 증가하여 깊은 Transformer 블록의 도함수를 항등 행렬로 만들어 학습에 거의 기여하지 못하게 합니다. 이러한 문제를 해결하기 위해, 층 정규화의 출력 분산을 깊이의 제곱근의 역수로 조절하는 LayerNorm Scaling(LNS)을 제안합니다. 실험 결과, 다양한 모델 크기(1억 3천만개에서 70억개 매개변수)에서 LNS가 기존 정규화 및 스케일링 기법보다 LLM 사전 학습 성능을 향상시키는 것으로 나타났으며, 이러한 개선은 지도 학습 미세 조정에도 적용됩니다. 이러한 성능 향상은 LNS가 깊은 층이 학습 중에 더 효과적으로 기여할 수 있도록 하기 때문입니다.

시사점, 한계점

시사점:
Pre-Layer Normalization의 단점(깊이 증가에 따른 출력 분산 폭발)을 밝히고, 이로 인해 발생하는 깊은 층의 비효율성 문제를 해결할 수 있는 LayerNorm Scaling(LNS) 기법을 제시.
LNS는 다양한 크기의 LLM에서 사전 학습 및 미세 조정 성능을 향상시키는 효과를 보임.
LLM의 학습 효율 및 성능 향상에 대한 새로운 관점 제시.
한계점:
LNS의 효과가 모든 유형의 LLM 아키텍처나 학습 전략에 대해 동일하게 적용될 수 있는지는 추가적인 연구가 필요.
제안된 LNS 기법의 계산 비용 및 메모리 소비에 대한 추가적인 분석 필요.
다른 정규화 기법과의 보다 심도있는 비교 분석 필요.
👍