Sign In

Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents

Created by
  • Haebom
Category
Empty

저자

Julia Bazinska, Max Mathys, Francesco Casucci, Mateo Rojas-Carulla, Xander Davies, Alexandra Souly, Niklas Pfister

개요

대규모 언어 모델(LLM) 기반 AI 에이전트의 보안에 대한 체계적인 이해 부족 문제를 해결하기 위해, LLM 백본 선택이 에이전트 보안에 미치는 영향을 연구하는 프레임워크와 벤치마크를 제시합니다. 본 연구는 LLM 취약성이 나타나는 특정 실행 상태를 분리하는 "위협 스냅샷" 프레임워크를 도입하고, 이를 활용하여 194,331개의 고유한 크라우드 소싱 적대적 공격을 기반으로 하는 보안 벤치마크 $\operatorname{b}^3$를 구축합니다. 31개의 인기 LLM을 평가한 결과, 향상된 추론 능력이 보안을 향상시키지만 모델 크기는 보안과 상관관계가 없음을 밝혀냈습니다. 벤치마크, 데이터 세트 및 평가 코드를 공개하여 LLM 제공업체와 실무자의 광범위한 채택을 장려하고, 에이전트 개발자를 위한 지침을 제공하며, 모델 개발자가 백본 보안 개선에 우선순위를 두도록 유도합니다.

시사점, 한계점

시사점:
향상된 추론 능력이 AI 에이전트의 보안을 향상시키는 데 기여합니다.
모델 크기는 에이전트 보안과 직접적인 관련이 없습니다.
"위협 스냅샷" 프레임워크는 LLM 기반 에이전트의 보안 위험을 체계적으로 식별하고 분류하는 데 유용합니다.
$\operatorname{b}^3$ 벤치마크는 LLM 보안 평가를 위한 실질적인 도구를 제공합니다.
한계점:
구체적인 한계점은 논문에 명시되지 않았습니다. (요약본에서 확인 불가)
👍