본 논문은 복합적인 시각적 추론 문제 해결을 위해 대규모 다중 모달 모델(LMMs)에 통합된 시각적 추론 메커니즘을 제시합니다. 기존의 단순한 지름길 학습 방식과 달리, 인간의 이해-사고-응답 과정을 모방하여 모델이 단일 전달 과정에서 문제를 해결하도록 설계되었습니다. 이를 위해 334,000개의 시각적 지시 사례를 포함하는 새로운 데이터셋을 구축하고, 이를 기반으로 Griffon-R 모델을 훈련했습니다. Griffon-R은 종단 간 자동 이해, 자기 사고, 추론 답변 능력을 갖추고 있으며, VSR, CLEVR, MMBench, ScienceQA 등 다양한 벤치마크에서 우수한 성능을 보였습니다.