LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries
Created by
Haebom
저자
Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
개요
LiveMCP-101 벤치마크는 다양한 MCP(Model Context Protocol) 툴을 사용하여 복잡한 다단계 작업을 해결하는 AI 에이전트의 능력을 평가하기 위해 고안되었습니다. 101개의 실제 세계 질의로 구성되며, 웹 검색, 파일 작업, 수학적 추론, 데이터 분석 등 여러 MCP 툴의 조정된 사용을 필요로 합니다. 기존의 API 출력 기반 평가 방식과 달리, 정답 실행 계획을 활용하여 실제 환경의 역동적인 특성을 더 잘 반영합니다. 실험 결과, 최첨단 LLMs조차 60% 미만의 성공률을 보였으며, 토큰 사용의 비효율성 등 다양한 실패 모드가 드러났습니다. 이는 툴 조정의 어려움과 향후 모델 개선 방향을 제시합니다.
시사점, 한계점
•
시사점:
◦
실제 세계 환경에서 다중 툴 사용을 통한 복잡한 작업 수행 능력 평가를 위한 엄격한 기준을 제시합니다.
◦
최첨단 LLMs의 툴 조정 능력의 한계를 명확히 보여줍니다.
◦
툴 사용 과정에서 발생하는 다양한 실패 모드와 비효율성을 분석하여 모델 개선 방향을 제시합니다.