Sign In

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Created by
  • Haebom
Category
Empty

μ €μž

Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 트랜슀포머 μ–Έμ–΄ λͺ¨λΈμ—μ„œ λ°œμƒν•˜λŠ” 'λŒ€κ·œλͺ¨ ν™œμ„±ν™”(massive activations)'와 'μ–΄ν…μ…˜ 싱크(attention sinks)'λΌλŠ” 두 κ°€μ§€ ν˜„μƒμ΄ μ–΄λ–»κ²Œ μƒν˜Έ μž‘μš©ν•˜κ³  κΈ°λŠ₯ν•˜λŠ”μ§€ λΆ„μ„ν•©λ‹ˆλ‹€. 연ꡬ진은 μ΄λŸ¬ν•œ ν˜„μƒμ΄ 주둜 λͺ¨λΈμ˜ μ•„ν‚€ν…μ²˜ μ„€κ³„λ‘œ 인해 λ°œμƒν•˜λ©°, λŒ€κ·œλͺ¨ ν™œμ„±ν™”λŠ” μ „μ—­μ μœΌλ‘œ μž‘λ™ν•˜μ—¬ μ•”μ‹œμ  νŒŒλΌλ―Έν„° 역할을 ν•˜κ³ , μ–΄ν…μ…˜ μ‹±ν¬λŠ” κ΅­μ†Œμ μœΌλ‘œ μž‘λ™ν•˜μ—¬ μ–΄ν…μ…˜ 좜λ ₯을 μ‘°μ ˆν•œλ‹€λŠ” 것을 μ‹€ν—˜μ μœΌλ‘œ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. 특히, 프리-λ†ˆ(pre-norm) ꡬ쑰가 이 두 ν˜„μƒμ˜ λ™μ‹œ λ°œμƒμ— μ€‘μš”ν•œ 역할을 ν•˜λ©°, 이λ₯Ό μ œκ±°ν•˜λ©΄ 두 ν˜„μƒμ΄ 뢄리됨을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
트랜슀포머 λͺ¨λΈμ˜ ν˜„λŒ€μ μΈ μ•„ν‚€ν…μ²˜ 섀계, 특히 프리-λ†ˆ ꡬ쑰가 λŒ€κ·œλͺ¨ ν™œμ„±ν™”μ™€ μ–΄ν…μ…˜ μ‹±ν¬λΌλŠ” 두 κ°€μ§€ μ€‘μš”ν•œ ν˜„μƒμ˜ λ™μ‹œ λ°œμƒμ„ μœ λ°œν•˜λŠ” μ£Όμš” μ›μΈμž„μ„ λ°ν˜”μŠ΅λ‹ˆλ‹€.
β€’
λŒ€κ·œλͺ¨ ν™œμ„±ν™”λŠ” λͺ¨λΈμ˜ ν•™μŠ΅λœ μ•”μ‹œμ  νŒŒλΌλ―Έν„°μ²˜λŸΌ μž‘λ™ν•˜μ—¬ 전역적인 ν‘œν˜„μ„ μ•ˆμ •ν™”μ‹œν‚€λŠ” 역할을 ν•˜λ©°, μ–΄ν…μ…˜ μ‹±ν¬λŠ” κ΅­μ†Œμ μΈ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ‘°μ ˆν•˜κ³  νŠΉμ • ν—€λ“œμ˜ μ˜μ‘΄μ„± ν•™μŠ΅μ„ 편ν–₯μ‹œν‚€λŠ” 역할을 ν•œλ‹€λŠ” 것을 κΈ°λŠ₯적으둜 κ΅¬λΆ„ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ΄λŸ¬ν•œ ν˜„μƒλ“€μ˜ μ•„ν‚€ν…μ²˜μ  기원을 λ°νžˆλŠ” 데 μ΄ˆμ μ„ λ§žμΆ”μ—ˆμœΌλ‚˜, 이 ν˜„μƒλ“€μ΄ νŠΉμ • νƒœμŠ€ν¬μ—μ„œμ˜ μ„±λŠ₯에 ꡬ체적으둜 μ–΄λ–€ 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€, λ˜λŠ” 이λ₯Ό μ˜λ„μ μœΌλ‘œ ν™œμš©ν•˜κ±°λ‚˜ μ™„ν™”ν•  수 μžˆλŠ” 방법둠에 λŒ€ν•œ 심측적인 νƒκ΅¬λŠ” ν–₯ν›„ 과제둜 남겨두고 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘