MCPShield: Content-Aware Attack Detection for LLM Agent Tool-Call Traffic

작성자

Haebom

카테고리

Empty

저자

Sultan Zavrak

💡 개요

본 논문은 LLM 에이전트가 외부 도구를 호출하는 Model Context Protocol (MCP) 트래픽에서 공격을 탐지하는 MCPShield 프레임워크를 제안합니다. MCPShield는 에이전트 세션을 그래프로 인코딩하고, 인자 및 응답의 문장 임베딩 특징으로 노드를 풍부하게 하며, 세션을 정상 또는 공격으로 분류합니다. 콘텐츠 수준 특징이 메타데이터만 사용하는 탐지보다 월등히 우수하며, AUROC 0.89 이상을 달성하는 것을 입증합니다.

🔑 시사점 및 한계

•

콘텐츠 수준 특징 (문장 임베딩)이 LLM 에이전트 도구 호출 트래픽에서 공격 탐지에 매우 중요하다.

•

무작위 데이터 분할 방식은 탐지 성능을 과대평가할 수 있으며, 작업별 분할이 더 신뢰할 수 있는 평가 방법을 제공한다.

•

SBERT 임베딩을 활용한 트리 앙상블 모델이 GNN과 같은 복잡한 신경망 모델보다 더 나은 탐지 성능을 보였다.

•

향후 과제로는 자가 지도 사전 학습이 레이블 효율성에서 큰 이점을 제공하지 못했다는 점을 개선하고, 탐지 성능을 더욱 향상시킬 모델 아키텍처 및 특징 추출 방법에 대한 연구가 필요하다.

PDF 보기

Made with Slashpage