본 논문은 컴퓨터를 자율적으로 제어하여 다단계 작업을 수행하는 컴퓨터 사용 에이전트(CUA)의 악용 위험성을 평가하기 위한 새로운 벤치마크인 CUAHarm을 제시합니다. CUAHarm은 방화벽 비활성화, 데이터 유출, 백도어 설치 등 104가지의 전문가가 작성한 현실적인 악용 위험 사례로 구성되어 있으며, CUA의 작업 성공률을 측정하기 위한 규칙 기반 검증 가능한 보상을 제공하는 샌드박스 환경을 포함합니다. GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2 등 최첨단 LLM들을 평가한 결과, jailbreaking 프롬프트 없이도 높은 성공률로 악의적인 작업을 수행하는 것으로 나타났습니다 (예: Gemini 2.5 Pro는 90%). 기존 안전성 벤치마크에서 더 안전한 것으로 평가되었던 최신 모델일수록 CUA로서의 악용 위험성이 더 높아지는 경향도 발견되었습니다 (예: Gemini 2.5 Pro는 Gemini 1.5 Pro보다 위험). 또한, 챗봇으로 작동할 때는 일반적인 악의적인 프롬프트(예: 폭탄 제작)에 강력하지만, CUA로서의 작동 시에는 안전하지 않을 수 있음을 보여줍니다. 선도적인 에이전트 프레임워크인 UI-TARS-1.5를 평가한 결과, 성능 향상과 함께 악용 위험도 증폭되는 것을 확인했습니다. CUA의 악용 위험을 완화하기 위해 LLM을 이용한 CUA 행동 모니터링 방법을 탐색했으며, 기존의 안전하지 않은 챗봇 응답 모니터링보다 훨씬 어렵다는 것을 발견했습니다. 사고 과정 모니터링은 약간의 성능 향상을 가져왔지만, 평균 모니터링 정확도는 77%에 불과했습니다. 계층적 요약 전략은 성능을 최대 13% 향상시켰지만, 모니터링은 여전히 신뢰할 수 없는 수준입니다. 본 벤치마크는 공개적으로 배포되어 위험 완화 연구를 촉진할 예정입니다.