본 논문은 LLM 기반 에이전트 평가 방법론에 대한 최초의 종합적인 조사를 제공합니다. LLM 기반 에이전트는 AI에 있어 패러다임 전환을 가져왔으며, 동적인 환경과 상호 작용하면서 자율적으로 계획하고, 추론하고, 도구를 사용하고, 기억을 유지하는 시스템을 가능하게 합니다. 논문에서는 계획, 도구 사용, 자기 성찰, 기억 등의 기본적인 에이전트 능력, 웹, 소프트웨어 엔지니어링, 과학, 대화형 에이전트를 위한 애플리케이션 특정 벤치마크, 일반적인 에이전트를 위한 벤치마크, 그리고 에이전트 평가 프레임워크 등 네 가지 중요한 차원에 걸쳐 평가 벤치마크와 프레임워크를 체계적으로 분석합니다. 분석 결과, 더욱 현실적이고 어려운 평가로의 전환과 지속적으로 업데이트되는 벤치마크를 포함한 새로운 동향을 보여줍니다. 또한, 비용 효율성, 안전성, 강건성 평가 및 세분화되고 확장 가능한 평가 방법 개발에서 미래 연구가 해결해야 할 중요한 격차를 확인합니다. 이 설문조사는 빠르게 변화하는 에이전트 평가 환경을 매핑하고, 분야의 새로운 동향을 파악하고, 현재의 한계를 파악하며, 미래 연구의 방향을 제시합니다.