AI 에이전트의 성능을 평가하는 데 있어 인프라 지표만으로는 부족하다는 점을 지적하며, 결정의 질, 자율성, 비즈니스 가치를 측정하는 데 초점을 맞춘 11가지의 결과 기반, 작업 불가지론적 성능 지표 프레임워크를 제안합니다. 이 프레임워크는 모델 아키텍처나 특정 사용 사례에 관계없이 에이전트의 성능을 평가할 수 있도록 설계되었습니다. Goal Completion Rate (GCR), Autonomy Index (AIx), Multi-Step Task Resilience (MTR), Business Impact Efficiency (BIE)와 같은 지표를 포함하며, 4가지 에이전트 아키텍처와 5가지 도메인을 대상으로 한 대규모 시뮬레이션 실험을 통해 프레임워크의 효과를 입증합니다. Hybrid Agent가 대부분의 지표에서 가장 높은 성능을 보였으며, 평균 Goal Completion Rate 88.8%와 최고 Return on Investment (ROI)를 달성했습니다.