본 논문은 대규모 언어 모델 기반 에이전트가 도구를 활용하여 환경을 수정하는 방식에 대한 연구를 다룹니다. 기존의 NLP 작업과 달리, 이러한 에이전트는 도구 간의 관계, 환경 피드백, 이전 결정 등 복잡한 요소들을 고려해야 합니다. 기존 연구는 주로 다회차 대화를 통해 에이전트를 평가하지만, 이러한 중요 요소들의 영향은 간과합니다. 본 논문에서는 이러한 간극을 해소하기 위해 오픈소스 고품질 벤치마크인 $C^3$-Bench를 제시합니다. $C^3$-Bench는 공격 개념을 통합하고 단변량 분석을 적용하여 에이전트 강건성에 영향을 미치는 주요 요소를 파악합니다. 복잡한 도구 관계 탐색, 중요한 숨겨진 정보 처리, 동적인 의사결정 경로 관리라는 세 가지 과제를 설계하고, 세분화된 지표, 혁신적인 데이터 수집 알고리즘, 재현 가능한 평가 방법을 도입했습니다. 49개의 주요 에이전트(일반적인 빠른 사고, 느린 사고, 특정 도메인 모델 포함)에 대한 광범위한 실험을 수행하여 도구 의존성, 장기 문맥 정보 의존성, 빈번한 정책 유형 전환 처리에서 에이전트의 상당한 단점을 확인했습니다. $C^3$-Bench는 이러한 과제를 통해 모델의 취약성을 노출하고 에이전트 성능의 해석 가능성에 대한 연구를 촉진하는 것을 목표로 합니다. 벤치마크는 https://github.com/yupeijei1997/C3-Bench 에서 공개적으로 이용 가능합니다.