HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization
Created by
Haebom
Category
Empty
저자
Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma
개요
본 논문은 트랜스포머 네트워크, 특히 대규모 언어 모델(LLM)의 훈련에서 계층 정규화(Layer Normalization)의 위치에 대한 문제를 해결하기 위해 HybridNorm을 제안합니다. Pre-Norm 구조는 훈련을 용이하게 하지만 성능이 Post-Norm보다 떨어지는 반면, Post-Norm은 성능은 좋지만 훈련이 어렵다는 한계를 가지고 있습니다. HybridNorm은 어텐션 메커니즘에는 QKV 정규화를, 피드포워드 네트워크(FFN)에는 Post-Norm을 적용하는 하이브리드 방식을 제시합니다. 밀집 및 희소 아키텍처 모두에서 다양한 벤치마크에 걸쳐 Pre-Norm 및 Post-Norm보다 우수한 성능을 달성하여 최첨단 결과를 얻었습니다.
시사점, 한계점
•
시사점:
◦
HybridNorm은 트랜스포머 네트워크의 훈련 안정성과 성능을 향상시키는 효과적인 방법임을 제시합니다.
◦
밀집 및 희소 아키텍처 모두에서 우수한 성능을 보이며 다양한 벤치마크에서 최첨단 결과를 달성했습니다.
◦
Pre-Norm과 Post-Norm의 장점을 결합하여 각각의 단점을 극복합니다.
◦
공개된 코드를 통해 재현성을 높였습니다.
•
한계점:
◦
본 논문에서 제시된 HybridNorm의 성능 향상이 모든 종류의 트랜스포머 네트워크 및 모든 작업에 일반화될 수 있는지는 추가 연구가 필요합니다.
◦
다른 정규화 기법들과의 비교 분석이 더욱 심도있게 이루어질 필요가 있습니다.
◦
HybridNorm이 특정 하이퍼파라미터 설정에 민감한지 여부에 대한 추가 분석이 필요합니다.