μ΄ λ
Όλ¬Έμ μ΄λ―Έμ§ λ μ΄λ―Έμ§ λ³ν μμ
μμ λΆν¬ λ³νμ λν κ°κ±΄μ±μ ν₯μμν€λ μ κ·ν λνμ±(Normalization Equivariance, NE)μ΄λΌλ ꡬ쑰μ μ¬μ μ§μμ λ€λ£Ήλλ€. κΈ°μ‘΄ NE λ°©λ²μ λͺ¨λ λ΄λΆ κ³μΈ΅μ NE νΈν μ°μ°μΌλ‘ μ μ½νμ¬ μ±λ₯ μ ν λ° νμ€ νΈλμ€ν¬λ¨Έ κ΅¬μ± μμ(μ: softmax attention, LayerNorm)μ λ°°μ λ₯Ό μ΄λνμ΅λλ€. μ μλ Wrapped Normalization Equivariance (WNE)λ νλΌλ―Έν° μμ΄ μ
λ ₯κ°μ μ κ·ννκ³ μμμ λ°±λ³Έμ μ μ©ν ν μΆλ ₯μ μμ κ·ννλ λ°©μμΌλ‘ NE ν¨μ ν΄λμ€λ₯Ό μ ννκ² λ§€κ°λ³μνν©λλ€.