Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools

Created by
  • Haebom

저자

Kanghua Mo, Li Hu, Yucheng Long, Zhihao Li

개요

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구를 활용하여 복잡한 추론과 의사결정을 수행하는 능력을 보여주지만, 이러한 도구 중심 패러다임으로 인해 도구 메타데이터(이름, 설명, 매개변수 스키마 등) 조작을 통한 새로운 공격 표면이 발생한다는 것을 제시합니다. 연구진은 프롬프트 삽입이나 모델 내부 접근 없이 악의적인 도구가 LLM 에이전트에 의해 우선적으로 선택되도록 허용하는 새로운 은밀한 위협 표면을 확인하고, 이를 악용하기 위해 매력적인 메타데이터 공격(AMA)이라는 블랙박스 인-컨텍스트 학습 프레임워크를 제안합니다. AMA는 반복적인 최적화를 통해 매우 매력적이지만 구문론적 및 의미론적으로 유효한 도구 메타데이터를 생성합니다. 실제 도구 사용 시나리오 10가지와 다양한 LLM 에이전트에 대한 광범위한 실험을 통해 높은 공격 성공률(81%-95%)과 상당한 개인 정보 유출이 확인되었으며, 주요 작업 실행에는 미미한 영향만 미쳤습니다. 또한, 프롬프트 수준의 방어 및 모델 컨텍스트 프로토콜과 같은 구조화된 도구 선택 프로토콜에서도 공격이 효과적임을 보여주어 현재 에이전트 아키텍처의 시스템적 취약성을 드러냅니다. 결론적으로 메타데이터 조작은 강력하고 은밀한 공격 표면을 구성하며, 프롬프트 수준의 방어를 넘어 실행 수준의 보안 메커니즘이 필요함을 강조합니다.

시사점, 한계점

시사점:
LLM 에이전트의 도구 메타데이터 조작을 통한 새로운 공격 가능성을 제시.
프롬프트 수준 방어를 넘어서는 실행 수준 보안 메커니즘의 필요성을 강조.
AMA 공격의 높은 성공률(81%-95%)과 상당한 개인 정보 유출 가능성을 실험적으로 증명.
기존의 도구 선택 프로토콜의 취약성을 보여줌.
한계점:
현재 연구는 시뮬레이션된 환경에서 진행되었으며, 실제 환경에서의 효과는 추가 연구가 필요.
AMA 공격에 대한 효과적인 방어 메커니즘에 대한 구체적인 제안은 부족.
다양한 유형의 LLM 에이전트 및 도구에 대한 일반화 가능성에 대한 추가 연구가 필요.
👍