Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

작성자

Haebom

카테고리

Empty

저자

Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li

💡 개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 장시간 추론 과정에서 시각적 정보에 대한 주의력이 분산되어 발생하는 '지각 손상' 문제를 다룹니다. 연구진은 이러한 현상의 원인이 추론 단계에서 시각적 주의가 질문과 관련된 영역에서 벗어나 흩어지는 '주의 분산'임을 규명했습니다. 이를 해결하기 위해 질문 관련 영역에 주의를 집중하도록 하는 훈련 없는 '시각 영역 안내 주의(VRGA)' 프레임워크를 제안합니다.

🔑 시사점 및 한계

•

MLLM의 장시간 추론 시 발생하는 시각적 주의 분산 현상이 '지각 손상'의 주요 원인임을 밝히고, 이를 정량적으로 분석했습니다.

•

훈련 없이 적용 가능한 VRGA 프레임워크를 통해 MLLM의 시각적 주의를 제어하여 추론 정확도를 향상시키고 시각적 근거 제시 능력을 개선했습니다.

•

제안된 방법은 MLLM이 시각 정보를 처리하는 방식을 이해하는 데 중요한 통찰을 제공하며, 해석 가능한 AI 연구에 기여합니다.

•

VRGA 프레임워크의 효과가 특정 종류의 추론이나 복잡한 시각적 상황에 어떻게 적용될지는 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage