Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
Created by
Haebom
저자
Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo
개요
본 논문은 대규모 Transformer 모델에서 계층 정규화(LN) 전략의 선택이 훈련 안정성과 수렴 속도에 미치는 영향을 분석적으로 탐구한다. 기존의 Pre-LN과 Post-LN 전략의 한계를 지적하며, 최근 몇몇 오픈소스 모델에서 채택되기 시작한 Peri-LN 전략에 주목한다. Peri-LN은 정규화 계층을 서브레이어 주변에 배치하는 전략으로, 활성화 분산과 기울기 전파에 미치는 영향을 분석하고, 최대 32억 파라미터의 Transformer 모델을 이용한 실험을 통해 Peri-LN이 더욱 균형 잡힌 분산 성장, 안정적인 기울기 흐름, 그리고 수렴 안정성을 달성함을 보여준다. 결론적으로, 본 논문은 대규모 Transformer 아키텍처에서 Peri-LN 전략의 효용성을 제시하고, LN의 최적 배치에 대한 새로운 통찰력을 제공한다.
시사점, 한계점
•
시사점:
◦
Peri-LN 전략이 대규모 Transformer 모델의 훈련 안정성과 수렴 속도 향상에 효과적임을 이론적 및 실험적으로 증명.
◦
Pre-LN과 Post-LN의 한계를 극복할 수 있는 새로운 LN 배치 전략 제시.
◦
활성화 분산과 기울기 전파에 대한 심층적인 분석을 통해 LN 전략 선택의 근거를 제공.
◦
대규모 Transformer 아키텍처 설계에 대한 새로운 지침 제시.
•
한계점:
◦
실험은 최대 32억 파라미터의 모델까지 진행되었으므로, 그 이상의 파라미터를 가진 모델에 대한 일반화 가능성은 추가 연구가 필요.