본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구를 활용하여 복잡한 추론과 의사결정을 수행하는 능력을 보여주지만, 이러한 도구 중심 패러다임으로 인해 도구 메타데이터(이름, 설명, 매개변수 스키마 등) 조작을 통한 새로운 공격 표면이 발생한다는 것을 제시합니다. 연구진은 프롬프트 삽입이나 모델 내부 접근 없이 악의적인 도구가 LLM 에이전트에 의해 우선적으로 선택되도록 허용하는 새로운 은밀한 위협 표면을 확인하고, 이를 악용하기 위해 매력적인 메타데이터 공격(AMA)이라는 블랙박스 인-컨텍스트 학습 프레임워크를 제안합니다. AMA는 반복적인 최적화를 통해 매우 매력적이지만 구문론적 및 의미론적으로 유효한 도구 메타데이터를 생성합니다. 실제 도구 사용 시나리오 10가지와 다양한 LLM 에이전트에 대한 광범위한 실험을 통해 높은 공격 성공률(81%-95%)과 상당한 개인 정보 유출이 확인되었으며, 주요 작업 실행에는 미미한 영향만 미쳤습니다. 또한, 프롬프트 수준의 방어 및 모델 컨텍스트 프로토콜과 같은 구조화된 도구 선택 프로토콜에서도 공격이 효과적임을 보여주어 현재 에이전트 아키텍처의 시스템적 취약성을 드러냅니다. 결론적으로 메타데이터 조작은 강력하고 은밀한 공격 표면을 구성하며, 프롬프트 수준의 방어를 넘어 실행 수준의 보안 메커니즘이 필요함을 강조합니다.