UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
Created by
Haebom
Category
Empty
저자
Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Juan A. Rodriguez, Montek Kalsi, Rabiul Awal, Nicolas Chapados, M. Tamer Ozsu, Aishwarya Agrawal, David Vazquez, Christopher Pal, Perouz Taslakian, Spandana Gella, Sai Rajeswar
개요
UI-Vision은 실제 데스크톱 환경에서 컴퓨터 사용 에이전트의 오프라인, 세분화된 평가를 위한 최초의 포괄적이고 라이선스 허용 벤치마크입니다. 기존 연구가 온라인 환경에 집중한 것과 달리, 데이터 수집의 어려움과 라이선스 문제로 인해 상대적으로 덜 연구되었던 데스크톱 환경에 초점을 맞추고 있습니다. 83개의 소프트웨어 애플리케이션에 걸쳐 바운딩 박스, UI 레이블, 액션 경로(클릭, 드래그, 키보드 입력)를 포함한 고품질의 밀집된 사람의 데모 주석을 제공하며, Element Grounding, Layout Grounding, Action Prediction 세 가지 과제를 통해 에이전트의 성능을 엄격하게 평가합니다. UI-Vision을 오픈소스로 공개하여 실제 데스크톱 작업을 위한 더욱 능력 있는 에이전트 개발을 목표로 합니다. 평가 결과, UI-TARS-72B와 같은 최첨단 모델에서 전문 소프트웨어 이해, 공간 추론, 드래그 앤 드롭과 같은 복잡한 작업 수행 등의 중요한 한계점을 드러냅니다.
시사점, 한계점
•
시사점:
◦
실제 데스크톱 환경에서 컴퓨터 사용 에이전트를 평가하기 위한 최초의 포괄적인 벤치마크 제공
◦
UI-TARS-72B와 같은 최첨단 모델의 한계점을 명확히 제시하여 향후 연구 방향 제시
◦
오픈소스 공개를 통해 데스크톱 환경에서의 에이전트 개발 활성화
•
한계점:
◦
데스크톱 환경의 데이터 수집 및 라이선스 문제로 인한 데이터셋의 제한적인 범위 (83개 소프트웨어 애플리케이션)
◦
최첨단 모델의 한계점을 보여주지만, 이러한 한계를 극복하기 위한 구체적인 해결 방안 제시는 부족