본 논문은 대규모 언어 모델 기반 자율 에이전트의 프롬프트 엔지니어링 편의성과 그로 인한 안전성, 견고성, 행동 일관성 문제를 제기한다. 특히, 프롬프트가 사용자의 악의적인 시도에 노출될 위험성에 초점을 맞춰, 에이전트를 해킹하여 시스템 명령어와 내부 정보를 노출시키는 "Doppelganger method"를 제안한다. 해당 공격에 대한 취약성을 평가하기 위한 "Prompt Alignment Collapse under Adversarial Transfer (PACAT)" 수준을 정의하고, Doppelganger method에 대응하는 "Caution for Adversarial Transfer (CAT)" 프롬프트를 제시한다. 실험 결과, Doppelganger method가 에이전트의 일관성을 저해하고 내부 정보를 노출시킬 수 있음을 보여주며, CAT 프롬프트가 이러한 적대적 공격에 효과적으로 방어할 수 있음을 입증한다.