Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AI Kill Switch for malicious web-based LLM agent

Created by
  • Haebom
Category
Empty

저자

Sechan Lee, Sangdon Park

개요

웹 기반 대규모 언어 모델(LLM) 에이전트가 자율적으로 복잡한 작업을 수행하여 편의성을 높이는 동시에, 개인 식별 정보(PII) 무단 수집, 사회 분열적 콘텐츠 생성, 자동 웹 해킹 등 악의적인 오용 위험을 증가시킵니다. 이러한 위협을 해결하기 위해, 악의적인 웹 기반 LLM 에이전트의 작동을 즉시 중단시킬 수 있는 AI 킬 스위치 기술을 제안합니다. 이를 위해, 악의적인 LLM 에이전트의 안전 메커니즘을 트리거하는 방어 프롬프트를 생성하는 AutoGuard를 도입했습니다. 생성된 방어 프롬프트는 웹사이트의 DOM에 투명하게 임베딩되어, 사용자는 볼 수 없지만 악의적인 에이전트의 크롤링 프로세스에 의해 감지되어 악의적인 작업을 중단하도록 내부 안전 메커니즘을 트리거합니다.

시사점, 한계점

시사점:
악의적인 LLM 에이전트의 작동을 제어하고 중단시키는 AI 킬 스위치 기술 제시.
AutoGuard를 통해 다양한 악의적인 시나리오 (PII 수집, 사회 분열 콘텐츠 생성, 웹 해킹) 에 대한 방어 성공률 80% 이상 달성.
GPT-4o, Claude-3, Llama3-70B-Instruct 등 다양한 모델에서 높은 방어 성공률 입증.
GPT-5, GPT-4.1, Gemini-2.5-Flash 등 새로운 모델에서도 90% 수준의 방어 성공률로 강력한 일반화 성능 확인.
AI 제어 및 안전성 확보에 기여.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍