Sign In

See What You Are Told: Visual Attention Sink in Large Multimodal Models

Created by
  • Haebom
Category
Empty

저자

Seil Kang, Jinyeong Kim, Junhyeok Kim, Seong Jae Hwang

개요

본 논문은 대규모 다중 모달 모델(LMMs)에서 나타나는 '시각적 주의력 싱크(visual attention sink)' 현상을 연구합니다. LMMs는 트랜스포머 디코더에서 텍스트와 시각 토큰 간의 주의력 메커니즘을 활용하여 이미지를 '봅니다'. 하지만 기존 연구는 LMMs가 관련 없는 시각 토큰에도 지속적으로 높은 주의력 가중치를 할당하는 경향이 있음을 보여줍니다. 본 연구는 이러한 현상의 원인을 특정 은닉 상태 차원의 과도한 활성화로 밝히고, 이를 언어 모델에서 발견되는 주의력 싱크와 유사하게 '시각적 주의력 싱크'라 명명합니다. 흥미롭게도, 관련 없는 시각적 싱크 토큰을 제거해도 모델 성능에는 영향이 없다는 것을 발견했습니다. 따라서 본 연구는 이러한 토큰에 대한 주의력을 '잉여 자원'으로 재활용하여 중요한 시각 정보에 대한 주의력을 재분배하는 '시각적 주의력 재분배(VAR)' 기법을 제안합니다. VAR은 추가 학습, 모델, 추론 단계 없이 다양한 LMM과 작업에 적용 가능하며, 일반적인 비전-언어 작업, 시각적 환각 작업, 시각 중심 작업 등에서 성능 향상을 보입니다.

시사점, 한계점

시사점:
LMMs의 시각적 주의력 싱크 현상의 원인을 규명하고, 이를 해결하는 새로운 방법인 VAR을 제시.
VAR은 추가 학습이나 모델 변경 없이 다양한 LMM과 작업에 적용 가능하며 성능 향상을 가져옴.
LMM의 시각 정보 처리 효율성을 높이는 새로운 방향 제시.
한계점:
VAR의 효과가 모든 LMM과 모든 작업에 대해 동일하게 적용될지는 추가 연구가 필요.
시각적 주의력 싱크 현상의 원인에 대한 보다 심층적인 분석이 필요할 수 있음.
특정 유형의 이미지나 작업에서 VAR의 성능이 저하될 가능성 존재.
👍