본 논문은 대규모 언어 모델(LLM) 에이전트와 다중 에이전트 시스템의 빠른 도입으로 인해 자연어 처리 및 생성 분야에서 전례 없는 기능이 가능해졌지만, 기존의 프롬프트 주입 공격을 넘어서는 전례 없는 보안 취약성도 발생했다는 점을 지적합니다. 연구진은 에이전트 AI 시스템 내의 신뢰 경계를 악용하여 컴퓨터 장악을 달성할 수 있는 공격 벡터로서 LLM 에이전트를 포괄적으로 평가한 첫 번째 연구 결과를 제시합니다. 직접 프롬프트 주입, RAG 백도어 공격, 에이전트 간 신뢰 악용이라는 세 가지 공격 표면을 통해 인기 있는 LLM(GPT-4o, Claude-4, Gemini-2.5 포함)을 속여 피해자 시스템에 악성 코드를 자율적으로 설치하고 실행하도록 유도할 수 있음을 보여줍니다. 17개의 최첨단 LLM에 대한 평가 결과, 직접 프롬프트 주입에 취약한 모델은 41.2%, RAG 백도어 공격에 취약한 모델은 52.9%, 에이전트 간 신뢰 악용을 통해 손상될 수 있는 모델은 82.4%에 달하는 것으로 나타났습니다. 특히, 악의적인 명령을 성공적으로 방어하는 LLM도 동료 에이전트의 요청 시 동일한 페이로드를 실행하는 것으로 나타나, 현재 다중 에이전트 보안 모델의 근본적인 결함을 드러냅니다. 모든 공격 벡터에 저항한 모델은 5.9%(1/17)에 불과하며, 대부분의 모델은 맥락에 따라 보안 동작이 달라져 악용 가능한 취약점이 발생합니다. 이러한 결과는 LLM의 보안 위험에 대한 인식과 연구의 필요성을 강조하며, AI 도구 자체가 정교한 공격 벡터가 되는 사이버 보안 위협의 패러다임 전환을 보여줍니다.