본 연구는 멀티모달 대규모 언어 모델(MLLM)이 외부 도구를 유연하고 효율적으로 활용하여 추론할 수 있도록 설계된 에이전트 기반 프레임워크인 ToolScope를 소개합니다. ToolScope는 장기적인 VQA 작업에서 시각적 맥락 저하를 완화하기 위해 Perceive 도구를 채택하여 글로벌 계획과 로컬 멀티모달 인식을 통합합니다. ToolScope는 Global Navigator, Agentic Executor 및 Response Synthesizer의 세 가지 주요 구성 요소로 구성됩니다. Global Navigator는 상위 수준의 전략적 지침을 제공하고, Agentic Executor는 Search, Code, Perceive와 같은 외부 도구를 통합하여 MLLM을 로컬 인식을 통해 반복적으로 보강합니다. 마지막으로 Response Synthesizer는 추론 프로세스를 일관된 사용자 친화적인 출력으로 통합합니다. VQA 2.0, ScienceQA, MAT-Search 및 MathVista를 포함한 다양한 도메인의 4가지 VQA 벤치마크에서 ToolScope를 평가한 결과, 모든 데이터 세트에서 평균 +6.69%의 성능 향상을 달성하며 강력한 일반화 능력을 입증했습니다.