Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization

Created by
  • Haebom

저자

Debeshee Das, Luca Beurer-Kellner, Marc Fischer, Maximilian Baader

개요

LLM 에이전트의 툴 접근 및 민감 데이터 접근 증가로 인한 간접 프롬프트 인젝션 공격 표면 확대에 대응하기 위해, 실행 가능한 명령어를 포함하지 않아야 한다는 보안 원칙에 기반한 새로운 접근 방식을 제시합니다.
이 연구는 토큰 레벨의 정화 과정을 통해 툴 출력에서 AI 시스템을 겨냥한 명령어를 제거합니다. 이는 기존의 안전 분류기와 달리 비차단적이며, 보정 필요 없고, 툴 출력의 컨텍스트에 독립적입니다.
또한, 지시 튜닝 데이터만으로 토큰 레벨 예측기를 훈련할 수 있으며,
본 연구는 AgentDojo, BIPIA, InjecAgent, ASB, SEP 등의 벤치마크에서 7~10배의 공격 성공률(ASR) 감소(AgentDojo에서 34%에서 3%로 감소)를 달성하면서, 에이전트 유틸리티를 저해하지 않음을 보였습니다.

시사점, 한계점

시사점:
토큰 레벨의 명령어 제거를 통한 안전성 확보.
비차단적이며, 보정 불필요, 컨텍스트 독립적인 접근 방식.
실제 데이터 기반의 훈련 가능성.
다양한 공격 및 벤치마크에서 높은 방어 효과 입증 (ASR 감소).
에이전트 유틸리티 유지.
한계점:
구체적인 공격 유형에 대한 세부적인 분석 및 방어 메커니즘에 대한 설명 부족.
훈련 데이터의 품질과 다양성에 대한 영향에 대한 논의 부족.
잠재적인 오탐 및 성능 저하 가능성에 대한 추가적인 연구 필요.
👍