대규모 언어 모델(LLM) 기반 AI 에이전트의 보안에 대한 체계적인 이해 부족 문제를 해결하기 위해, LLM 백본 선택이 에이전트 보안에 미치는 영향을 연구하는 프레임워크와 벤치마크를 제시합니다. 본 연구는 LLM 취약성이 나타나는 특정 실행 상태를 분리하는 "위협 스냅샷" 프레임워크를 도입하고, 이를 활용하여 194,331개의 고유한 크라우드 소싱 적대적 공격을 기반으로 하는 보안 벤치마크 $\operatorname{b}^3$를 구축합니다. 31개의 인기 LLM을 평가한 결과, 향상된 추론 능력이 보안을 향상시키지만 모델 크기는 보안과 상관관계가 없음을 밝혀냈습니다. 벤치마크, 데이터 세트 및 평가 코드를 공개하여 LLM 제공업체와 실무자의 광범위한 채택을 장려하고, 에이전트 개발자를 위한 지침을 제공하며, 모델 개발자가 백본 보안 개선에 우선순위를 두도록 유도합니다.