MCPMark는 실제 작업 흐름의 복잡성과 현실감을 포착하지 못하는 기존 MCP 벤치마크의 한계를 해결하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 도메인 전문가와 AI 에이전트가 공동으로 제작한 127개의 고품질 작업으로 구성되어 있으며, 자동 검증을 위한 프로그래밍 스크립트를 포함합니다. MCPMark는 환경과의 풍부하고 다양한 상호 작용을 요구하며, create, read, update, delete (CRUD) 작업을 광범위하게 포함합니다. gpt-5-medium 모델이 52.56% pass@1과 33.86% pass@4를 달성했지만, 다른 강력한 모델들은 30% pass@1과 15% pass@4 미만을 기록하며, 기존 MCP 벤치마크보다 훨씬 많은 실행 턴과 도구 호출을 필요로 하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
MCPMark는 현실적인 환경에서 LLM의 MCP 사용을 평가하기 위한 새로운 벤치마크를 제공합니다.
◦
벤치마크는 다양한 CRUD 작업을 포함하여 더욱 복잡하고 현실적인 상호 작용을 요구합니다.
◦
실험 결과, 최첨단 LLM의 성능이 기존 벤치마크보다 낮은 것으로 나타났으며, 이는 MCPMark가 LLM에 대한 스트레스 테스트 역할을 함을 보여줍니다.