본 논문은 대규모 언어 모델 기반 에이전트가 도구를 활용하여 환경을 수정하는 방식으로 물리적 세계와 상호 작용하는 AI의 혁신을 다룹니다. 기존의 NLP 작업과 달리, 이러한 에이전트는 도구 간 관계, 환경 피드백, 이전 결정과 같은 복잡한 요소들을 고려하여 선택을 해야 합니다. 현재 연구는 주로 다회차 대화를 통해 에이전트를 평가하지만, 이러한 중요한 요소들이 에이전트 행동에 미치는 영향을 간과합니다. 이러한 간극을 해소하기 위해, 본 논문은 오픈소스 고품질 벤치마크인 $C^3$-Bench를 제시합니다. $C^3$-Bench는 공격 개념을 통합하고 단변량 분석을 적용하여 에이전트 강건성에 영향을 미치는 주요 요소를 정확히 파악합니다. 구체적으로, 복잡한 도구 관계 탐색, 중요한 숨겨진 정보 처리, 동적 의사결정 경로 관리라는 세 가지 과제를 설계하고, 세분화된 지표, 혁신적인 데이터 수집 알고리즘 및 재현 가능한 평가 방법을 도입합니다. 49개의 주요 에이전트(일반적인 빠른 사고, 느린 사고 및 특정 도메인 모델 포함)에 대한 광범위한 실험을 통해, 에이전트가 도구 의존성, 긴 컨텍스트 정보 의존성 및 빈번한 정책 유형 전환을 처리하는 데 상당한 단점이 있음을 확인했습니다. 본질적으로 $C^3$-Bench는 이러한 과제를 통해 모델 취약성을 노출하고 에이전트 성능의 해석성에 대한 연구를 촉진하는 것을 목표로 합니다. 벤치마크는 https://github.com/yupeijei1997/C3-Bench 에서 공개적으로 이용 가능합니다.