본 논문은 정규화 계층이 필수적이라고 오랫동안 여겨져 온 현대 신경망에서 정규화 계층 없이도 동일하거나 더 나은 성능을 달성할 수 있음을 보여줍니다. 저자들은 Transformer에서 정규화 계층을 대체하는 요소별 연산인 Dynamic Tanh (DyT)($DyT(x) = \tanh(\alpha x)$)를 제안합니다. DyT는 Transformer에서 계층 정규화가 종종 tanh와 유사한 S자 모양의 입력-출력 매핑을 생성한다는 관찰에서 영감을 받았습니다. DyT를 통합함으로써 정규화 계층이 없는 Transformer는 대부분의 하이퍼파라미터 조정 없이 정규화된 Transformer와 동등하거나 그 이상의 성능을 달성할 수 있습니다. 다양한 설정(인식, 생성, 지도 학습, 자기 지도 학습, 컴퓨터 비전, 언어 모델)에서 DyT를 사용한 Transformer의 효과를 검증합니다. 이러한 결과는 현대 신경망에서 정규화 계층이 필수적이라는 기존의 이해에 도전하고 심층 신경망에서 정규화 계층의 역할에 대한 새로운 통찰력을 제공합니다.