Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models

Created by
  • Haebom

저자

Yang Feng, Xudong Pan

개요

대규모 언어 모델(LLM) 기반 자율 에이전트(특히 표 형식 데이터를 처리하는 에이전트)의 확산으로 인해 프롬프트 주입 공격에 대한 취약성이 제기되었다. 기존의 표 형식 에이전트는 엄격한 데이터 형식과 규칙을 적용하지만, 다층 구조 데이터를 탐색하여 공격 코드를 통합해야 하는 경우 효과적이지 않다. 본 논문에서는 블랙박스 LLM 기반 표 형식 에이전트를 표적으로 하는 새로운 공격 기법인 StruPhantom을 제시한다. StruPhantom은 제약된 몬테카를로 트리 탐색과 오프토픽 평가자를 활용한 진화적 최적화 절차를 통해 공격 페이로드를 지속적으로 개선한다. 실제 플랫폼의 다양한 LLM 기반 에이전트와 공격 시나리오에 대한 평가를 통해 피싱 링크 또는 악성 코드 삽입 성공률이 기존 기법보다 50% 이상 높음을 확인하였다.

시사점, 한계점

시사점:
LLM 기반 표 형식 에이전트의 프롬프트 주입 공격 취약성을 효과적으로 공격하는 새로운 기법 StruPhantom을 제시.
StruPhantom의 진화적 최적화 절차를 통해 기존 기법보다 높은 성공률을 달성.
실제 플랫폼의 다양한 에이전트에 대한 공격 성공을 검증.
한계점:
StruPhantom의 효과는 특정 유형의 LLM 기반 에이전트 및 공격 시나리오에 국한될 수 있음.
블랙박스 환경에서의 공격이므로, 에이전트의 내부 동작에 대한 완벽한 이해가 필요하지 않음. 하지만, 에이전트의 특성에 대한 어느 정도의 정보는 필요할 수 있음.
진화적 최적화 과정의 계산 비용이 클 수 있음.
👍