Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

Created by
  • Haebom
Category
Empty

저자

Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas

개요

M^3-Bench는 Model Context Protocol 하에서 멀티모달 도구 사용을 평가하기 위한 최초의 벤치마크입니다. 이 벤치마크는 시각적 기반, 텍스트 추론, 도구 간 의존성, 중간 리소스의 지속성을 요구하는 현실적이고, 다단계, 다중 스레드 워크플로우를 대상으로 합니다. 각 도구 호출을 직렬화하고, 문장 인코더로 서명을 임베딩하며, 유사성 기반 버킷 헝가리안 매칭을 수행하여 감사 가능한 일대일 대응을 얻는 유사성 기반 정렬을 소개합니다. 이 정렬을 기반으로, 의미 충실도와 워크플로우 일관성을 분리하는 해석 가능한 메트릭을 보고합니다. 벤치마크는 28개의 서버와 231개의 도구를 포함하며, 인간 검증을 거친 Executor & Judge 파이프라인을 통해 큐레이션된 표준화된 트래젝토리를 제공합니다. 또한, 4개의 대규모 언어 모델(LLM) 앙상블은 최종 작업 완료 및 정보 기반을 보고합니다. 대표적인 최첨단 Multimodal LLM (MLLM)의 평가는 인수 충실도 및 구조적 일관성에서 지속적인 격차를 드러내며, 이미지, 텍스트 및 도구 그래프를 공동으로 추론하는 방법의 필요성을 강조합니다.

시사점, 한계점

현실적인 멀티모달 도구 사용을 평가하는 새로운 벤치마크 M^3-Bench 개발.
시각적 기반, 텍스트 추론, 도구 간 의존성, 중간 리소스의 지속성을 요구하는 워크플로우 평가.
유사성 기반 정렬 및 해석 가능한 메트릭 도입.
28개 서버, 231개 도구, Executor & Judge 파이프라인, LLM 앙상블을 통한 평가.
MLLM의 인수 충실도 및 구조적 일관성에서 격차 확인.
이미지, 텍스트, 도구 그래프를 공동으로 추론하는 방법의 필요성 제기.
논문 자체에서는 한계점에 대한 직접적인 언급이 없음. (하지만, 벤치마크의 정확성, 일반화 가능성, 다른 도구 및 MLLM 모델과의 호환성 등이 잠재적인 한계점일 수 있음)
👍