웹 기반 대규모 언어 모델(LLM) 에이전트가 자율적으로 복잡한 작업을 수행하여 편의성을 높이는 동시에, 개인 식별 정보(PII) 무단 수집, 사회 분열적 콘텐츠 생성, 자동 웹 해킹 등 악의적인 오용 위험을 증가시킵니다. 이러한 위협을 해결하기 위해, 악의적인 웹 기반 LLM 에이전트의 작동을 즉시 중단시킬 수 있는 AI 킬 스위치 기술을 제안합니다. 이를 위해, 악의적인 LLM 에이전트의 안전 메커니즘을 트리거하는 방어 프롬프트를 생성하는 AutoGuard를 도입했습니다. 생성된 방어 프롬프트는 웹사이트의 DOM에 투명하게 임베딩되어, 사용자는 볼 수 없지만 악의적인 에이전트의 크롤링 프로세스에 의해 감지되어 악의적인 작업을 중단하도록 내부 안전 메커니즘을 트리거합니다.