Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Impact of Layer Norm on Memorization and Generalization in Transformers

Created by
  • Haebom
Category
Empty

저자

Rishi Singhal, Jung-Eun Kim

개요

본 논문은 트랜스포머 아키텍처에서 Layer Normalization (LayerNorm)이 학습 및 기억에 미치는 영향을 Pre-LayerNorm 및 Post-LayerNorm 모델 간 비교 분석을 통해 연구한다. LayerNorm이 Pre-LayerNorm 모델에서는 안정적인 학습에, Post-LayerNorm 모델에서는 기억에 주요한 영향을 미친다는 것을 밝혀냈다. 특히, Pre-LayerNorm 모델에서 LayerNorm 매개변수 제거는 기억을 악화시키고 학습을 불안정하게 만들며, Post-LayerNorm 모델에서는 기억을 완화하는 효과를 보인다는 것을 확인했다. 또한, 초기 레이어의 LayerNorm이 학습에 가장 중요한 역할을 한다는 것을 발견했다.

시사점, 한계점

Pre-LayerNorm 모델에서 LayerNorm은 안정적인 학습을 위한 핵심 요소이며, 제거 시 기억 능력 악화 및 학습 불안정성을 초래한다.
Post-LayerNorm 모델에서 LayerNorm은 기억 능력에 영향을 미치며, 제거 시 기억이 완화된다.
초기 레이어의 LayerNorm이 학습에 가장 큰 영향을 미친다.
13개의 모델과 6개의 Vision 및 Language 데이터셋을 사용한 실험을 통해 검증했다.
본 연구는 LayerNorm의 역할에 대한 새로운 통찰력을 제공하지만, 특정 데이터셋과 모델에 국한될 수 있으며, 다른 아키텍처 및 작업에 대한 일반화 가능성은 추가 연구가 필요하다.
👍