본 논문은 실제 환경에서의 에이전트형 AI 시스템 도입을 위한 신뢰할 수 있는 평가 방법을 제시한다. 기존 LLM 벤치마크의 문제점인 훈련 데이터 오염과 에이전트적 능력 평가 부족을 해결하기 위해 기업 중심 벤치마크인 Kamiwaza Agentic Merit Index (KAMI) v0.1을 제안한다. 17만 개의 테스트 항목과 55억 개 이상의 토큰을 사용한 35가지 모델 설정에서의 실험을 통해, 전통적인 벤치마크 순위가 실제 에이전트적 성능을 제대로 예측하지 못함을 보여준다. Llama 4나 Qwen 3와 같은 최신 모델이 이전 세대 모델보다 항상 우수한 성능을 보이지 않는다는 사실을 발견했으며, 비용-성능 트레이드오프, 모델별 행동 패턴, 토큰 효율성에 대한 추론 능력의 영향에 대한 통찰력을 제공한다.