# Attention Sinks Induce Gradient Sinks: Massive Activations as Gradient Regulators in Transformers

### 저자

Yihong Chen, Zhouchen Lin, Quanming Yao

### 💡 개요

본 연구는 Transformer 모델에서 발생하는 어텐션 싱크(attention sinks)와 과도한 활성화(massive activations) 현상이 역전파 과정에서 발생하는 그래디언트 싱크(gradient sinks)와 밀접하게 관련되어 있음을 밝힙니다. 특히, 인과적 마스킹(causal masking) 환경에서 어텐션 싱크가 그래디언트 집중을 유도하며, 과도한 활성화는 RMSNorm의 그래디언트 감쇠 효과를 조절하는 적응적 조절자 역할을 함을 이론적, 경험적으로 제시합니다.

### 🔑 시사점 및 한계

- Transformer 학습 중 발생하는 그래디언트 집중 현상(gradient sinks)이 어텐션 싱크와 연관되어 있으며, 이는 모델 학습 안정성에 중요한 역할을 합니다.

- 과도한 활성화는 RMSNorm을 통해 이러한 국소적인 학습 압력을 완화하는 적응적 메커니즘으로 작용합니다.

- V-scale과 같은 그래디언트 조절 기법은 과도한 활성화를 억제하면서도 어텐션 싱크는 유지할 수 있음을 보여, 역전파 관점에서 모델 동작을 이해하는 데 기여합니다.

- 제안된 V-scale 기법이 모든 Transformer 아키텍처나 태스크에 대해 동일하게 효과적일지는 추가적인 검증이 필요하며, 그래디언트 싱크와 과도한 활성화의 상호작용에 대한 더욱 심층적인 이론적 분석이 요구됩니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.17771)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).