본 논문은 시각적 추론 과제에서 대규모 시각-언어 모델(LVLMs)이 이미지 정보보다 언어 지식을 우선시하여 성능 저하를 초래하는 문제를 해결하기 위해, 시각적 추론 과정을 시각적 인지(eyesight)와 언어적 추론(wisdom) 두 단계로 분해하는 새로운 시각적 추론 프레임워크인 ProReason을 제안합니다. ProReason은 다중 실행 사전적 인지(multi-run proactive perception)와 분리된 시각-추론 기능(decoupled vision-reasoning capabilities)을 특징으로 하며, 필요하고 충분한 시각적 설명으로 답을 도출할 때까지 반복적으로 정보를 수집하고 추론합니다. 기존 LLM을 통합하여 LVLMs의 추론 결함을 보완할 수 있도록 설계되었으며, 다양한 벤치마크에서 기존의 다단계 추론 프레임워크 및 수동 방식보다 우수한 성능을 보입니다. 특히 LLM을 활용하여 MMMU 벤치마크에서 최대 15%의 성능 향상을 달성했습니다.