본 논문은 대규모 언어 모델(LLM)의 도구 활용 능력 평가를 위한 새로운 벤치마크인 MCP-RADAR를 제안합니다. 기존 평가 방법론의 한계를 극복하고자, 정답 정확도, 도구 선택 효율성, 계산 자원 효율성, 매개변수 구성 정확도, 실행 속도 등 5가지 차원에 걸쳐 객관적인 측정을 수행합니다. 소프트웨어 엔지니어링, 수학적 추론, 일반적인 문제 해결 등 다양한 작업 영역에서 주요 상용 및 오픈소스 LLM을 평가하여, 정확도, 효율성, 속도 간의 상호작용을 분석하고, 모델 및 도구 개발자를 위한 최적화 방향을 제시합니다. Model Context Protocol(MCP) 기반으로 개발되었지만, 다른 LLM 에이전트 도구 통합 프레임워크에도 적용 가능한 일반적인 방법론을 제공합니다.