본 논문은 GUI를 조작하여 사용자 작업을 완료하도록 훈련된 다중 모드 에이전트에 대한 간접 프롬프트 주입 공격(예: 팝업이나 채팅 메시지에 오해의 소지가 있는 지침을 포함하는 공격)에 대한 새로운 레드 팀 프레임워크인 EVA를 제안한다. EVA는 에이전트의 GUI에 대한 주의 분포를 지속적으로 모니터링하고 적대적 단서, 키워드, 구문 및 레이아웃을 업데이트함으로써 공격을 폐쇄 루프 최적화로 변환한다. 기존의 일회성 방법과 달리, EVA는 등장하는 주의 집중 영역에 동적으로 적응하여 공격 성공률과 다양한 GUI 시나리오에 대한 전이성을 크게 향상시킨다. 다양한 GUI 에이전트(일반 및 특수 에이전트)를 대상으로 팝업 조작, 채팅 기반 피싱, 결제, 이메일 작성 등 현실적인 환경에서 EVA를 평가한 결과, 정적 기준선보다 성공률이 크게 향상되었음을 보여준다. 공격자가 에이전트의 작업 의도를 모르는 상황에서도 효과적인 패턴을 발견하며, 주입 스타일이 모델 간에 잘 전이되어 GUI 에이전트의 공통된 행동 편향을 드러낸다.