본 논문은 대규모 비전-언어 모델(LVLM)의 시각적 질문 응답(VQA) 능력 향상에도 불구하고, 모델의 시각적 주의 집중 위치를 해석하는 것이 여전히 어려운 문제임을 지적합니다. 이에 연구진은 GLIMPSE라는 경량의 모델 독립적 프레임워크를 제시합니다. GLIMPSE는 경사 가중 주의, 적응적 계층 전파, 관련성 가중 토큰 집계를 결합하여 개방형 생성을 지원하는 가장 관련성 높은 시각적 증거와 텍스트 신호에 LVLM 출력을 공동으로 귀속시키는 전체적인 응답 수준 히트맵을 생성합니다. 기존 방법보다 신뢰성이 높고 사람의 주의력과의 정렬에서 최첨단 성능을 달성합니다. 또한, LVLM의 교차 모달 귀속에 대한 세분화된 통찰력을 밝히고, 추론 역학을 추적하며, 체계적인 불일치를 분석하고, 환각과 편향을 진단하며, 투명성을 보장하는 분석적 접근 방식을 제시합니다.