Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Transformers without Normalization

Created by
  • Haebom

저자

Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu

개요

본 논문은 정규화층(Normalization layers) 없이도 Transformer가 동일하거나 더 나은 성능을 달성할 수 있음을 보여줍니다. 정규화층을 대체하는 간단한 요소별 연산인 Dynamic Tanh (DyT)를 제시합니다. DyT는 $DyT(x) = \tanh(\alpha x)$ 로 정의되며, Transformer에서 정규화층이 종종 tanh와 유사한 S자 형태의 입력-출력 매핑을 생성한다는 관찰에서 영감을 받았습니다. DyT를 사용한 Transformer는 하이퍼파라미터 튜닝 없이도 정규화층을 사용하는 Transformer와 동등하거나 뛰어난 성능을 달성합니다. 이러한 효과는 이미지 인식, 텍스트 생성 등 다양한 설정과 학습 방식(지도학습, 자기지도학습)에서 검증되었습니다. 본 연구는 정규화층이 현대 신경망에서 필수적이라는 기존의 이해에 도전하고, 심층 신경망에서 정규화층의 역할에 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점:
정규화층이 Transformer에서 필수적이지 않을 수 있음을 시사합니다.
DyT라는 간단하고 효과적인 정규화층 대체 방법을 제시합니다.
하이퍼파라미터 튜닝 없이도 성능 향상을 달성할 수 있습니다.
다양한 작업과 학습 방식에서 효과를 검증했습니다.
심층 신경망 설계에 대한 새로운 관점을 제공합니다.
한계점:
DyT의 효과가 모든 종류의 신경망과 모든 설정에서 일반화될지는 추가 연구가 필요합니다.
$\alpha$ 값의 결정에 대한 자세한 논의가 부족할 수 있습니다.
특정 문제 유형이나 네트워크 아키텍처에서 정규화층의 효과가 여전히 중요할 가능성이 있습니다.
👍