Sign In

When Attention Sink Emerges in Language Models: An Empirical View

Created by
  • Haebom
Category
Empty

저자

Xiangming Gu, Tianyu Pang, Chao Du, Qian Liu, Fengzhuo Zhang, Cunxiao Du, Ye Wang, Min Lin

개요

본 논문은 언어 모델(LM)에서 첫 토큰에 과도한 어텐션이 집중되는 현상인 "어텐션 싱크(attention sink)"를 심층적으로 분석합니다. 다양한 LM에서 어텐션 싱크가 보편적으로 나타나며, 이는 사전 학습 과정 중 최적화, 데이터 분포, 손실 함수, 모델 아키텍처 등의 영향을 받는다는 것을 밝힙니다. 특히, 충분한 훈련 데이터에 대한 효과적인 최적화 이후에 어텐션 싱크가 등장하며, 그 위치는 손실 함수와 데이터 분포와 높은 상관관계를 갖는다는 점을 강조합니다. 또한, 어텐션 싱크는 정보가 없는 추가 어텐션 점수를 저장하는 키 바이어스와 유사하게 작동하며, 소프트맥스 정규화에 따른 토큰 간의 내부적 의존성에서 (부분적으로) 기인한다는 것을 발견합니다. 소프트맥스 어텐션을 정규화 없는 시그모이드 어텐션으로 대체하여 이러한 의존성을 완화하면, 최대 10억 매개변수의 LM에서도 어텐션 싱크가 발생하지 않는다는 것을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
어텐션 싱크 현상의 보편성과 그 발생 원인에 대한 심층적인 이해를 제공합니다.
어텐션 싱크의 발생에 영향을 미치는 요인(최적화, 데이터 분포, 손실 함수, 모델 아키텍처)을 밝힙니다.
어텐션 싱크가 키 바이어스와 유사하게 작동하며, 소프트맥스 정규화가 주요 원인임을 제시합니다.
소프트맥스 어텐션을 대체하여 어텐션 싱크를 완화할 수 있는 가능성을 제시합니다.
스트리밍/장문 생성, KV 캐시 최적화, 추론 가속, 모델 양자화 등 다양한 응용 분야에 시사점을 제공합니다.
한계점:
소프트맥스 어텐션 대체를 통한 어텐션 싱크 완화가 모든 LM에 적용 가능한지에 대한 추가 연구가 필요합니다.
어텐션 싱크 완화가 모델 성능에 미치는 영향에 대한 추가적인 분석이 필요합니다.
어텐션 싱크 현상에 대한 완벽한 해결책을 제시하지는 못합니다. 부분적인 원인 규명 및 완화 방안 제시에 그칩니다.
👍