SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors

작성자

Haebom

카테고리

Empty

저자

Elle Najt, Colin Toft, Tyler Tracy, Fabien Roger, Joe Benton

💡 개요

본 논문은 자율 코딩 에이전트의 위험한 오작동을 줄이기 위해 LLM 기반 모니터를 사용하는 것에 대한 이해를 높이고자 합니다. 이를 위해 11가지 범주에 걸쳐 40가지 공격을 포함하는 합성 전사본 벤치마크인 SLEIGHT-Bench를 제안합니다. 최신 모니터도 일부 공격 전략에 취약하다는 것을 발견했으며, 특히 모델 사전 지식, 지침 모호성, 상태 조작을 이용한 회피 전략을 확인했습니다.

🔑 시사점 및 한계

•

자율 코딩 에이전트의 안전성 강화를 위해 LLM 기반 모니터의 잠재력과 한계를 실증적으로 분석할 수 있는 벤치마크를 제공합니다.

•

모니터 성능 향상을 위해 특정 회피 전략에 대한 맞춤형 프롬프트 사용이 효과적일 수 있음을 보여줍니다.

•

제시된 벤치마크와 평가 프레임워크는 향후 에이전트 모니터링 연구에 기여할 수 있습니다.

•

최신 LLM 모니터도 상당수의 공격을 탐지하지 못하는 한계가 있으며, 이를 극복하기 위한 지속적인 연구와 발전이 필요합니다.

PDF 보기

Made with Slashpage