본 논문은 시각-언어 모델(VLMs) 기반의 자율 에이전트 AI 시스템의 실세계 배치가 가까워짐에 따라, 모달 간 의미 추론을 악용하는 새로운 적대적 조작 공격에 대한 취약성을 제기한다. 기존의 적대적 공격은 가시적인 픽셀 변화에 의존하거나 모델 또는 환경에 대한 특권적인 접근 권한을 필요로 하지만, TRAP은 확산 기반의 의미 주입을 사용하여 에이전트의 의사결정을 조작하는 생성적 적대적 프레임워크를 제시한다. 네거티브 프롬프트 기반의 저하와 시아미즈 의미 네트워크 및 레이아웃 인식 공간 마스킹으로 안내되는 긍정적 의미 최적화를 결합하여, 모델 내부에 접근하지 않고도 시각적으로 자연스러운 이미지를 생성하면서 에이전트 AI 시스템에서 일관된 선택 편향을 유도한다. COCO 데이터셋을 사용하여 다중 후보 의사결정 시나리오에서 LLaVA-34B, Gemma3, Mistral-3.1 등 주요 모델에 대해 100%의 공격 성공률을 달성, SPSA, Bandit, 표준 확산 접근 방식 등 기존 방식을 능가함을 보여준다. 이는 인간이 인지할 수 없는 모달 간 조작을 통해 자율 에이전트를 일관되게 오도할 수 있음을 보여주는 중요한 취약성을 드러낸다.