본 논문은 기존의 다중 모달 체인-오브-토큰(CoT) 추론 모델이 언어 편향에 의존하고 수학이나 과학 분야에 국한되는 한계를 극복하기 위해, 향상된 미세립상 시각 인식 능력을 갖춘 새로운 추론 다중 모달 대규모 언어 모델(MLLM)인 VGR을 제시합니다. VGR은 문제 해결에 도움이 될 관련 영역을 먼저 감지한 후, 재생된 이미지 영역을 기반으로 정확한 답을 제공합니다. 이를 위해, 시각적 근거와 언어적 추론이 혼합된 추론 데이터를 포함하는 대규모 SFT 데이터셋인 VGR-SFT를 구축했습니다. VGR의 추론 파이프라인은 모델이 시각적 참조를 위해 경계 상자를 선택할 수 있게 하고, 재생 단계를 통해 해당 영역을 추론 과정에 통합하여 다중 모달 이해력을 향상시킵니다. LLaVA-NeXT-7B 기준 모델에 대한 실험 결과, VGR은 포괄적인 이미지 세부 사항 이해가 필요한 다중 모달 벤치마크에서 우수한 성능을 달성했습니다. 기준 모델과 비교하여 이미지 토큰 수의 30%만 사용하면서 MMStar에서 +4.1, AI2D에서 +7.1, ChartQA에서 +12.9의 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
기존 MLLM의 언어 편향 및 제한된 도메인 문제를 해결하는 새로운 접근 방식 제시
◦
미세립상 시각 인식 능력을 통해 복잡한 시각 추론 과제 수행 능력 향상
◦
이미지 토큰 수를 줄이면서도 성능 향상을 달성 (MMStar, AI2D, ChartQA에서 상당한 성능 향상)
◦
효율적인 다중 모달 이해를 위한 새로운 SFT 데이터셋(VGR-SFT) 구축
•
한계점:
◦
VGR-SFT 데이터셋의 규모 및 구성에 대한 구체적인 정보 부족
◦
제시된 성능 향상이 특정 벤치마크에 국한될 가능성
◦
다른 MLLM 모델들과의 비교 분석이 더욱 필요
◦
일반적인 이미지 이해 능력 및 다양한 시각적 추론 과제에 대한 적용 가능성에 대한 추가 연구 필요