본 논문은 언어 모델(LM)에서 첫 토큰에 과도한 어텐션이 집중되는 현상인 "어텐션 싱크(attention sink)"를 심층적으로 분석합니다. 다양한 LM에서 어텐션 싱크가 보편적으로 나타나며, 이는 사전 학습 과정 중 최적화, 데이터 분포, 손실 함수, 모델 아키텍처 등의 영향을 받는다는 것을 밝힙니다. 특히, 충분한 훈련 데이터에 대한 효과적인 최적화 이후에 어텐션 싱크가 등장하며, 그 위치는 손실 함수와 데이터 분포와 높은 상관관계를 갖는다는 점을 강조합니다. 또한, 어텐션 싱크는 정보가 없는 추가 어텐션 점수를 저장하는 키 바이어스와 유사하게 작동하며, 소프트맥스 정규화에 따른 토큰 간의 내부적 의존성에서 (부분적으로) 기인한다는 것을 발견합니다. 소프트맥스 어텐션을 정규화 없는 시그모이드 어텐션으로 대체하여 이러한 의존성을 완화하면, 최대 10억 매개변수의 LM에서도 어텐션 싱크가 발생하지 않는다는 것을 실험적으로 보여줍니다.