M^3-Bench는 Model Context Protocol 하에서 멀티모달 도구 사용을 평가하기 위한 최초의 벤치마크입니다. 이 벤치마크는 시각적 기반, 텍스트 추론, 도구 간 의존성, 중간 리소스의 지속성을 요구하는 현실적이고, 다단계, 다중 스레드 워크플로우를 대상으로 합니다. 각 도구 호출을 직렬화하고, 문장 인코더로 서명을 임베딩하며, 유사성 기반 버킷 헝가리안 매칭을 수행하여 감사 가능한 일대일 대응을 얻는 유사성 기반 정렬을 소개합니다. 이 정렬을 기반으로, 의미 충실도와 워크플로우 일관성을 분리하는 해석 가능한 메트릭을 보고합니다. 벤치마크는 28개의 서버와 231개의 도구를 포함하며, 인간 검증을 거친 Executor & Judge 파이프라인을 통해 큐레이션된 표준화된 트래젝토리를 제공합니다. 또한, 4개의 대규모 언어 모델(LLM) 앙상블은 최종 작업 완료 및 정보 기반을 보고합니다. 대표적인 최첨단 Multimodal LLM (MLLM)의 평가는 인수 충실도 및 구조적 일관성에서 지속적인 격차를 드러내며, 이미지, 텍스트 및 도구 그래프를 공동으로 추론하는 방법의 필요성을 강조합니다.