Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UI-CUBE: Enterprise-Grade Computer Use Agent Benchmarking Beyond Task Accuracy to Operational Reliability

Created by
  • Haebom
Category
Empty

저자

Horia Cristescu, Charles Park, Trong Canh Nguyen, Sergiu Talmacel, Alexandru-Gabriel Ilie, Stefan Adam

개요

UI-CUBE는 현재 CUA(Computer Use Agent)의 엔터프라이즈 배포 준비성을 평가하기 위해 설계된 226개의 작업을 포함하는 체계적인 벤치마크입니다. 단순 UI 상호 작용, 복잡한 워크플로우, 엔터프라이즈 애플리케이션 시나리오를 포함하며, 인터페이스 변형, 다중 해상도 테스트 및 자동화된 유효성 검사를 통해 작업 성공 여부를 평가합니다. 5개의 최첨단 모델을 평가한 결과, 단순 작업에서는 67-85%의 성공률을 보였지만, 복잡한 작업에서는 9-19%로 급격한 성능 저하를 보였습니다. 이는 메모리 관리, 계층적 계획, 상태 조절과 같은 근본적인 아키텍처적 한계를 나타냅니다.

시사점, 한계점

시사점:
현재 CUA는 개별 인터페이스 요소 조작은 가능하지만, 신뢰할 수 있는 워크플로우 자동화 도구로 기능하지 못함.
UI-CUBE는 엔터프라이즈 배포 준비성을 진단하는 도구로 활용 가능.
복잡한 엔터프라이즈 프로세스를 관리할 수 있는 프로덕션 준비 CUA 개발에 필요한 아키텍처적 통찰력을 제공.
한계점:
논문 내용에 구체적인 한계점 언급은 없음.
👍