Sign In

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding

Created by
  • Haebom
Category
Empty

저자

Seil Kang, Jinyeong Kim, Junhyeok Kim, Seong Jae Hwang

개요

본 논문은 사전 학습된 거대 비전-언어 모델(LVLM)의 일부 어텐션 헤드가 텍스트 설명에 대응하는 이미지 영역을 국한하는 강력한 능력을 지닌다는 것을 발견했습니다. 이러한 어텐션 헤드를 '국한 헤드'라 명명하고, 이를 활용하여 추가적인 학습 없이도 효과적인 시각적 기반 구축 프레임워크를 제시합니다. 놀랍게도, 수천 개의 어텐션 헤드 중 단 세 개만으로도 기존의 미세 조정 기반 방법들과 비교하여 경쟁력 있는 국한 성능을 달성했습니다. 이는 LVLMs가 텍스트와 이미지 간의 관계를 깊이 이해하고, 정보가 풍부한 텍스트 출력을 생성하기 위해 관련 이미지 영역에 집중함으로써 객체를 자연스럽게 국한할 수 있음을 시사합니다. 모든 소스 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
사전 학습된 LVLMs 내에 시각적 기반 구축 능력이 내재되어 있음을 보여줌.
추가 학습 없이도 경쟁력 있는 성능을 달성하는 효율적인 시각적 기반 구축 프레임워크 제시.
LVLMs의 어텐션 메커니즘에 대한 새로운 이해 제공.
간단하고 효율적인 방법으로 시각적 기반 구축 문제 해결 가능성 제시.
한계점:
특정 LVLMs 및 데이터셋에 대한 결과이며, 일반화 성능에 대한 추가 연구 필요.
선택된 '국한 헤드'의 일반적인 특징 및 선택 기준에 대한 추가적인 분석 필요.
복잡한 시각적 기반 구축 문제(예: 다중 객체, 모호한 텍스트 설명)에 대한 성능 평가 추가 필요.
👍