SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

Author

Haebom

저자

Yinghan Hou, Zongyou Yang, Zaihu Pang, Xiujun Ma

💡 개요

본 논문은 오픈 소스 AI 에이전트 스킬 마켓플레이스에서 악의적인 스킬을 탐지하는 데 있어 기존 방법론의 한계를 지적하고, 이를 해결하기 위한 계층적 탐지 프레임워크인 SkillSieve를 제안한다. SkillSieve는 3단계 분석을 통해 효율성을 높이며, 정규 표현식, AST, 메타데이터 검사, LLM 기반 분석, 그리고 LLM 배심원제를 결합하여 악의적인 스킬을 효과적으로 탐지한다. 제안된 프레임워크는 실제 데이터셋과 다양한 우회 공격에 대해 높은 정확도를 달성하며, 저렴한 비용으로 배포 가능하다는 장점을 갖는다.

🔑 시사점 및 한계

•

계층적 분석을 통한 효율성 증대: SkillSieve는 3단계의 계층적 접근 방식을 통해 불필요한 심층 분석을 줄여 탐지 효율성을 높인다. 이는 특히 대규모 스킬 마켓플레이스에서 비용 효율적인 악성 스킬 탐지에 기여할 수 있다.

•

다양한 탐지 기법의 융합: 정규 표현식, AST, 메타데이터 기반의 초기 필터링과 LLM 기반의 심층 분석, 그리고 LLM 배심원제를 통해 자연어 기반의 프롬프트 주입 및 사회 공학적 공격까지 포괄적으로 탐지할 수 있다.

•

낮은 비용으로 실시간 탐지 및 다양한 플랫폼 적용 가능성: 저렴한 하드웨어에서도 높은 성능을 보이며, 다른 생태계로의 적응 가능성을 보여주어 기업용 플랫폼에서도 실시간 스킬 검증 시스템 구축에 활용될 수 있다.

•

한계점: LLM 기반 분석의 비용 및 응답 시간, 잠재적인 LLM의 편향성 및 환각(hallucination) 문제, 그리고 새로운 우회 기법에 대한 지속적인 탐지 능력 강화가 필요하다.

PDF 보기

Made with Slashpage