본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트 시스템의 복잡한 작업 자동화 능력을 평가하기 위해 34개의 프로그래밍 가능한 작업으로 구성된 벤치마크를 제시합니다. 두 가지 LLM 백본과 결합된 세 가지 오픈소스 에이전트 프레임워크를 평가한 결과, 약 50%의 작업 완료율을 보였습니다. 심층적인 실패 분석을 통해 작업 단계에 맞춰 계획 오류, 작업 실행 문제, 잘못된 응답 생성으로 구성된 3단계 실패 원인 분류 체계를 개발하고, 에이전트의 계획 및 자가 진단 능력 향상을 위한 실행 가능한 개선 사항을 제안합니다. 이 실패 분류 체계와 완화 방안은 향후 더욱 강력하고 효과적인 자율 에이전트 시스템 개발을 위한 경험적 기반을 제공합니다.