LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
Created by
Haebom
저자
Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
개요
본 논문은 대규모 Model Context Protocol (MCP) 환경에서 LLM 에이전트의 성능을 평가하기 위한 종합적인 벤치마크인 LiveMCPBench를 제시합니다. 기존의 MCP 벤치마크가 단일 서버 환경에 국한된 것과 달리, LiveMCPBench는 95개의 실제 세계 작업과 70개의 MCP 서버 및 527개의 도구를 포함하는 LiveMCPTool을 활용하여 대규모 다양한 서버 환경에서 LLM 에이전트를 평가합니다. 또한, 동적이고 시간에 따라 변하는 작업 환경에서 자동화된 평가를 가능하게 하는 LLM-as-a-Judge 프레임워크인 LiveMCPEval을 도입하여 인간 평가자와 81%의 일치율을 달성했습니다. 마지막으로, 다양한 도구를 활용하여 동적 계획 및 API 상호 작용을 수행하는 MCP Copilot Agent를 제안하고, 10개의 주요 모델을 평가하여 Claude-Sonnet-4 모델이 78.95%의 성공률을 달성했음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 실제 세계 MCP 환경에서 LLM 에이전트의 성능을 평가하기 위한 최초의 통합 프레임워크 제공.
◦
LiveMCPTool을 통해 확장 가능하고 재현 가능한 평가 파이프라인 지원.
◦
LiveMCPEval을 통한 자동화되고 적응적인 평가 가능.
◦
다양한 LLM 모델의 성능 비교 및 분석을 통한 향후 연구 방향 제시.
◦
공개적으로 이용 가능한 코드 및 데이터 제공.
•
한계점:
◦
현재 벤치마크에 포함된 작업 및 도구의 종류에 대한 한계. 더욱 다양한 작업 및 도구 추가 필요.
◦
모델 간 성능 편차가 큼. 모델의 일반화 능력 향상 연구 필요.
◦
일부 널리 사용되는 모델의 성능 저조. 모델의 robustness 및 일반화 성능 개선 필요.