본 논문은 정규화층(Normalization layers) 없이도 Transformer가 동일하거나 더 나은 성능을 달성할 수 있음을 보여줍니다. 정규화층을 대체하는 간단한 요소별 연산인 Dynamic Tanh (DyT)를 제시합니다. DyT는 $DyT(x) = \tanh(\alpha x)$ 로 정의되며, Transformer에서 정규화층이 종종 tanh와 유사한 S자 형태의 입력-출력 매핑을 생성한다는 관찰에서 영감을 받았습니다. DyT를 사용한 Transformer는 하이퍼파라미터 튜닝 없이도 정규화층을 사용하는 Transformer와 동등하거나 뛰어난 성능을 달성합니다. 이러한 효과는 이미지 인식, 텍스트 생성 등 다양한 설정과 학습 방식(지도학습, 자기지도학습)에서 검증되었습니다. 본 연구는 정규화층이 현대 신경망에서 필수적이라는 기존의 이해에 도전하고, 심층 신경망에서 정규화층의 역할에 대한 새로운 통찰력을 제공합니다.