Sign In

ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

Created by
  • Haebom
Category
Empty

저자

Mengjie Deng, Guanting Dong, Zhicheng Dou

개요

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 외부 도구를 유연하고 효율적으로 활용하여 추론할 수 있도록 설계된 에이전트 기반 프레임워크인 ToolScope를 소개합니다. ToolScope는 장기적인 VQA 작업에서 시각적 맥락 저하를 완화하기 위해 Perceive 도구를 채택하여 글로벌 계획과 로컬 멀티모달 인식을 통합합니다. ToolScope는 Global Navigator, Agentic Executor 및 Response Synthesizer의 세 가지 주요 구성 요소로 구성됩니다. Global Navigator는 상위 수준의 전략적 지침을 제공하고, Agentic Executor는 Search, Code, Perceive와 같은 외부 도구를 통합하여 MLLM을 로컬 인식을 통해 반복적으로 보강합니다. 마지막으로 Response Synthesizer는 추론 프로세스를 일관된 사용자 친화적인 출력으로 통합합니다. VQA 2.0, ScienceQA, MAT-Search 및 MathVista를 포함한 다양한 도메인의 4가지 VQA 벤치마크에서 ToolScope를 평가한 결과, 모든 데이터 세트에서 평균 +6.69%의 성능 향상을 달성하며 강력한 일반화 능력을 입증했습니다.

시사점, 한계점

시사점:
MLLM의 외부 도구 활용 능력 향상: ToolScope는 MLLM이 외부 도구를 효율적으로 사용하여 멀티모달 추론을 수행할 수 있도록 지원합니다.
장기적인 VQA 작업 성능 향상: Perceive 도구의 활용을 통해 시각적 맥락 저하 문제를 완화하고 VQA 작업의 성능을 향상시켰습니다.
다양한 벤치마크에서의 우수한 성능: VQA 2.0, ScienceQA, MAT-Search, MathVista 등 다양한 벤치마크에서 우수한 성능을 보이며, 모델의 일반화 능력을 입증했습니다.
한계점:
구체적인 한계점에 대한 언급은 논문 요약에 포함되어 있지 않습니다.
👍