MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

작성자

Haebom

카테고리

Empty

저자

Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh

개요

MCPMark는 실제 작업 흐름의 복잡성과 현실감을 포착하지 못하는 기존 MCP 벤치마크의 한계를 해결하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 도메인 전문가와 AI 에이전트가 공동으로 제작한 127개의 고품질 작업으로 구성되어 있으며, 자동 검증을 위한 프로그래밍 스크립트를 포함합니다. MCPMark는 환경과의 풍부하고 다양한 상호 작용을 요구하며, create, read, update, delete (CRUD) 작업을 광범위하게 포함합니다. gpt-5-medium 모델이 52.56% pass@1과 33.86% pass@4를 달성했지만, 다른 강력한 모델들은 30% pass@1과 15% pass@4 미만을 기록하며, 기존 MCP 벤치마크보다 훨씬 많은 실행 턴과 도구 호출을 필요로 하는 것으로 나타났습니다.