본 논문은 대규모 기초 모델(LFM)의 문제 해결 능력 향상을 위해 외부 도구 통합 방식을 연구합니다. 기존 연구는 도구 증강 시각 질문 응답(VQA)에서 강력한 성능을 보였으나, 실제 도구 사용 능력, 특히 다단계 추론이 필요한 다양한 모드 설정에서는 상당한 차이가 있음을 밝혔습니다. 이에 본 논문에서는 23,000개의 인스턴스로 구성된 대규모 다중 모드 데이터셋 ToolVQA를 제시합니다. ToolVQA는 기존의 합성 시나리오 및 단순화된 질의에 의존하는 데이터셋과 달리, 실제 시각적 맥락과 어려운 암시적 다단계 추론 과제를 특징으로 하여 실제 사용자 상호 작용과 더 잘 일치합니다. 데이터셋 생성을 위해 심층 우선 탐색(DFS)과 동적 맥락 내 예시 매칭 메커니즘을 사용하는 새로운 데이터 생성 파이프라인인 ToolEngine을 제안합니다. ToolVQA는 7가지 다양한 작업 영역에서 10가지 다중 모드 도구를 포함하며, 인스턴스당 평균 2.78단계의 추론 길이를 가집니다. ToolVQA에서 미세 조정된 7B LFM은 테스트 세트에서 뛰어난 성능을 달성할 뿐만 아니라 다양한 분포 외(OOD) 데이터셋에서 대규모 폐쇄형 모델인 GPT-3.5-turbo를 능가하여 실제 도구 사용 시나리오에 대한 강력한 일반화 능력을 보여줍니다.