UI-CUBE는 현재 CUA(Computer Use Agent)의 엔터프라이즈 배포 준비성을 평가하기 위해 설계된 226개의 작업을 포함하는 체계적인 벤치마크입니다. 단순 UI 상호 작용, 복잡한 워크플로우, 엔터프라이즈 애플리케이션 시나리오를 포함하며, 인터페이스 변형, 다중 해상도 테스트 및 자동화된 유효성 검사를 통해 작업 성공 여부를 평가합니다. 5개의 최첨단 모델을 평가한 결과, 단순 작업에서는 67-85%의 성공률을 보였지만, 복잡한 작업에서는 9-19%로 급격한 성능 저하를 보였습니다. 이는 메모리 관리, 계층적 계획, 상태 조절과 같은 근본적인 아키텍처적 한계를 나타냅니다.