본 논문은 다중 모달 대규모 언어 모델(MLLM) 기반 그래픽 사용자 인터페이스(GUI) 에이전트가 화면 기반 상호 작용 작업에서 강력한 의사결정 능력을 보여주지만, 악의적인 시각적 요소가 모델의 주의를 분산시켜 안전하지 않거나 잘못된 행동을 유발하는 팝업 기반 환경 주입 공격에 매우 취약하다는 문제를 다룹니다. 기존 방어 방법은 비용이 많이 드는 재훈련이 필요하거나 유도 간섭 하에서 성능이 저조합니다. 본 연구는 이러한 공격이 GUI 에이전트의 주의 행동을 어떻게 변화시키는지 체계적으로 연구하고, 정확한 출력과 잘못된 출력 간의 계층별 주의 발산 패턴을 밝힙니다. 이러한 통찰력을 바탕으로, 중요 계층에서 주의 및 MLP 모듈을 선택적으로 증폭하는 계층별 스케일링 메커니즘(LaSM)을 제안합니다. LaSM은 추가적인 훈련 없이 모델의 중요도와 작업 관련 영역 간의 정렬을 개선합니다. 12가지 유형의 팝업 섭동과 4가지의 서로 다른 모델 백본에 대한 광범위한 실험을 통해 LaSM이 방어 성공률을 일관되게 향상시킨다는 것을 보여줍니다. 프롬프트 수준 경고와 결합하면 LaSM은 강력한 유도 공격 하에서도 98% 이상의 강건성을 달성합니다. 본 연구 결과는 주의력 불일치가 MLLM 에이전트의 핵심 취약점이며, 선택적 계층별 변조를 통해 효과적으로 해결될 수 있음을 보여줍니다.