본 논문은 대규모 언어 모델(LLM) 에이전트의 자원 효율성과 적응성을 간과하는 기존 평가 방식의 한계를 지적하며, 경제적 추론 및 계획 재조정 능력을 평가하기 위한 비용 중심 벤치마크인 CostBench를 제안합니다. CostBench는 여행 계획 도메인을 기반으로 하며, 다양한 비용을 가진 도구 시퀀스를 통해 해결 가능한 작업과 예측 불가능성을 시뮬레이션하는 동적 차단 이벤트를 포함합니다. CostBench를 통해 주요 모델을 평가한 결과, 비용 효율적인 계획 수립에 상당한 격차가 있으며, 특히 동적 환경에서 성능 저하가 심각함을 확인했습니다.