Bo Wang, Weiyi He, Shenglai Zeng, Zhen Xiang, Yue Xing, Jiliang Tang, Pengfei He
개요
본 논문은 대규모 언어 모델(LLM) 에이전트의 메모리 모듈에 저장된 개인 사용자-에이전트 상호작용 정보를 추출하는 공격 기법인 MEXTRA(Memory EXTRaction Attack)에 대한 연구를 제시합니다. 블랙박스 설정 하에서 다양한 수준의 에이전트 지식을 기반으로 효과적인 공격 프롬프트 설계 및 자동 생성 방법을 제안하고, 두 개의 대표적인 에이전트를 대상으로 실험을 통해 MEXTRA의 효과를 입증합니다. 또한, 에이전트 설계자와 공격자 관점 모두에서 메모리 유출에 영향을 미치는 주요 요인들을 탐구하며, LLM 에이전트 설계 및 배포 시 효과적인 메모리 보호 장치의 필요성을 강조합니다.