본 논문은 대규모 언어 모델(LLM) 기반 컴퓨터 사용 에이전트의 보안 취약성을 공격 프레임워크 SUDO를 통해 제시합니다. SUDO는 Detox2Tox 기법을 사용하여 에이전트가 거부하는 악의적인 요청을 무해한 요청으로 변환한 후, 고급 시각 언어 모델(VLM)로부터 상세한 지침을 얻어 실행 직전에 악의적인 내용을 다시 삽입하는 방식으로 작동합니다. 기존의 제약 우회 기법과 달리, SUDO는 거부 피드백을 기반으로 공격을 반복적으로 개선하여 강력한 정책 필터를 우회합니다. 실제 환경에서 50가지 작업을 대상으로 한 실험 결과, Claude Computer Use에서 SUDO의 공격 성공률은 24%(개선 없음)에서 최대 41%(반복적 개선)에 달했습니다. 이는 강력하고 맥락 인식적인 보안 대책의 필요성을 시사합니다.