본 논문은 대규모 언어 모델(LLM) 기반 지능형 에이전트의 빠른 발전에 따라 강력하고 확장 가능한 평가 프레임워크의 필요성을 강조한다. 기존 방법들은 정적인 벤치마크와 노동 집약적인 데이터 수집에 의존하여 실질적인 평가를 제한한다. 이 논문에서는 다양한 도메인에서 LLM 에이전트의 엔드투엔드 작업 생성과 심층 평가를 자동화하는 오픈소스 모델 컨텍스트 프로토콜(MCP) 기반 프레임워크인 MCPEval을 소개한다. MCPEval은 지표를 표준화하고, 네이티브 에이전트 도구와 원활하게 통합하며, 평가 파이프라인 구축에 필요한 수동 작업을 제거한다. 5개의 실제 도메인에 대한 실험 결과는 미묘하고 도메인 특정 성능을 드러내는 데 효과적임을 보여준다. MCPEval은 재현 가능하고 표준화된 LLM 에이전트 평가를 촉진하기 위해 공개적으로 배포되었다(https://github.com/SalesforceAIResearch/MCPEval).