Don't Click That: Teaching Web Agents to Resist Deceptive Interfaces

작성자

Haebom

카테고리

Empty

저자

Yilin Zhang, Yingkai Hua, Chunyu Wei, Xin Wang, Yueguo Chen

💡 개요

본 연구는 Vision-Language Model(VLM) 기반 웹 에이전트가 속임수 인터페이스에 취약하다는 문제를 해결하기 위해, 속임수 탐지 및 평가 프레임워크인 DUDE를 제안합니다. DUDE는 하이브리드 보상 학습, 비대칭 페널티, 경험 요약을 통해 실패 패턴을 학습하여 에이전트의 속임수 인터페이스 대응 능력을 향상시킵니다. 제안된 DUDE는 53.8%의 속임수 취약성 감소와 함께 작업 성능을 유지하는 성과를 보였습니다.

🔑 시사점 및 한계

•

웹 에이전트의 자율적 GUI 상호작용 능력을 강화하고 실제 배포 시 발생할 수 있는 보안 위협을 완화하는 데 기여합니다.

•

속임수 인터페이스 탐지와 작업 수행을 통합한 최초의 방어 프레임워크를 제시하여 향후 관련 연구의 기반을 마련합니다.

•

제안된 DUDE 프레임워크의 일반화 성능 및 다양한 유형의 속임수 인터페이스에 대한 확장성은 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage