Semantic Attacks on Tool-Augmented LLMs: Securing the Model Context Protocol Against Descriptor-Level Manipulation

작성자

Haebom

카테고리

Empty

저자

Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

💡 개요

본 논문은 대규모 언어 모델(LLM)이 외부 도구와 상호작용하는 Model Context Protocol(MCP)의 보안 취약점을 다룹니다. 특히, 도구 설명자(tool descriptors)를 조작하여 LLM의 도구 선택 및 추론 과정에 편향을 일으키는 새로운 공격 기법인 Tool Poisoning, Shadowing, Rug Pull을 제안합니다. 제안된 다층 방어 전략은 모델 재학습 없이 도구 설명자의 무결성 검증, 보조 LLM을 이용한 문맥 검토, 런타임 가드레일을 통합하여 이러한 공격에 대한 LLM 시스템의 복원력을 크게 향상시킵니다.

🔑 시사점 및 한계

•

도구 설명자 수준의 공격은 LLM의 도구 호출 동작을 심각하게 변경할 수 있으며, 기본 설정에서는 최대 36%의 안전하지 않은 도구 호출을 유발할 수 있습니다.

•

제안된 통합 방어 시스템은 안전하지 않은 도구 호출을 15%로 줄이고 차단율을 74%로 높여, 도구 증강 LLM의 보안 및 복원력을 실질적으로 개선합니다.

•

다양한 LLM 아키텍처 및 프롬프트 전략에 따라 설명자 조작에 대한 견고성, 지연 시간, 민감도에 상당한 차이가 존재하여 LLM 모델 선택 시 보안 고려사항이 중요함을 시사합니다.

•

본 연구는 도구 호출 LLM 시스템에서 설명자 수준의 위협 및 완화 전략에 대한 통제된 모델 간 평가를 제공하지만, 실제 환경에서의 공격 시나리오 및 더욱 발전된 공격 기법에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage