Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models

작성자

Haebom

카테고리

Empty

저자

Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang

💡 개요

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 외부 도구 없이 중간 시각적 증거를 생성하여 시각적 추론 능력을 향상시키는 "GAP (Granular Alignment Paradigm)"라는 새로운 방법론을 제안합니다. 기존 방식의 불안정성을 극복하기 위해, GAP는 특징 공간 불일치 문제를 해결하고 세 가지 수준(특징, 문맥, 용량)에서 시각적 잠재 추론을 세밀하게 조정합니다. 이를 통해 Qwen2.5-VL 7B 모델에서 뛰어난 인식 및 추론 성능 향상을 달성했습니다.

🔑 시사점 및 한계

•

MLLM의 시각적 잠재 추론에서 특징 공간 불일치 문제가 성능 불안정성의 주요 원인임을 규명했습니다.

•

제안된 GAP 방법론은 특징, 문맥, 용량 수준의 세밀한 정렬을 통해 MLLM의 시각적 잠재 추론 성능을 안정적으로 향상시킬 수 있습니다.

•

생성된 잠재 토큰이 단순히 추가적인 토큰 슬롯을 넘어 작업 관련 시각적 신호를 제공한다는 것을 실험적으로 입증했습니다.

•

GAP의 성능은 기반 MLLM의 초기 성능 및 특정 작업에 대한 학습 데이터의 품질에 영향을 받을 수 있습니다.

•

세 가지 수준의 정렬을 적용하는 데 추가적인 계산 비용이 발생할 수 있으며, 특히 대규모 모델에서는 최적화가 필요할 수 있습니다.

PDF 보기

Made with Slashpage