본 논문은 기존의 통합적인 비전-언어 모델(LVLMs)의 한계를 극복하기 위해, 비전 해석 전문가 모델과 언어 기반 추론 LLM을 결합한 분리된 추론 프레임워크를 제안합니다. 이 방법은 이미지를 텍스트로 변환하는 전용 비전-언어 모델과, 변환된 텍스트와 질문을 바탕으로 추론하는 LLM을 활용하여, 비용 효율적으로 다중 모달 모델을 개발합니다. 기존 모델들을 최적화하여 협업하도록 함으로써, LVLMs를 처음부터 새로 개발하는 비용과 노력을 줄이고, 향후 강력한 LLM으로의 업그레이드를 용이하게 합니다. 결과적으로 기하학적 수학 문제와 같이 시각적으로 집중적인 작업에서 성능 향상을 보이며, 기존 LVLMs보다 우수한 성능을 보임을 실험 결과를 통해 입증합니다. 코드는 깃허브에서 공개합니다.