Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents

Created by
  • Haebom
Category
Empty

저자

Jian Mu, Chaoyun Zhang, Chiming Ni, Lu Wang, Bo Qiao, Kartik Mathur, Qianhui Wu, Yuhang Xie, Xiaojun Ma, Mengyu Zhou, Si Qin, Liqun Li, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

GUI-360°: 대규모 데스크탑 컴퓨터 사용 에이전트(CUA)를 위한 데이터셋 및 벤치마크

개요

본 논문은 컴퓨터 사용 에이전트(CUA) 발전을 위해 설계된 대규모의 포괄적인 데이터셋 및 벤치마크 스위트인 GUI-360°를 소개합니다. GUI-360°는 실제 CUA 작업 부족, 다중 모달 궤적을 위한 자동화된 수집 및 주석 파이프라인 부재, GUI 그라운딩, 화면 파싱, 액션 예측을 공동으로 평가하는 통합 벤치마크 부재라는 세 가지 주요 문제점을 해결하고자 합니다. GUI-360°는 LLM(Large Language Model)으로 강화된 파이프라인을 활용하여 쿼리 소싱, 환경 템플릿 구성, 작업 인스턴스화, 배치 실행, LLM 기반 품질 필터링을 수행합니다. 이 데이터셋은 Windows 오피스 애플리케이션에서 120만 개 이상의 실행된 액션 단계를 포함하며, 전체 해상도 스크린샷, 접근성 메타데이터, 인스턴스화된 목표, 중간 추론 추적, 성공 및 실패 액션 궤적을 포함합니다. GUI-360°는 GUI 그라운딩, 화면 파싱, 액션 예측의 세 가지 주요 작업과 현대 에이전트 설계를 반영하는 하이브리드 GUI+API 액션 공간을 지원합니다. 최첨단 비전-언어 모델을 GUI-360°에서 벤치마킹한 결과, 그라운딩 및 액션 예측에서 상당한 단점이 발견되었습니다. 지도 학습 기반 미세 조정 및 강화 학습을 통해 상당한 개선이 있었지만, 인간 수준의 신뢰도에는 미치지 못했습니다. GUI-360° 및 관련 코드는 재현 가능한 연구를 촉진하고 데스크톱 CUA의 발전을 가속화하기 위해 공개되었습니다.

시사점, 한계점

시사점:
CUA 연구를 위한 대규모 데이터셋 및 벤치마크 제공
GUI 그라운딩, 화면 파싱, 액션 예측을 위한 통합 평가 프레임워크 제공
LLM 기반 자동화 파이프라인을 통한 데이터셋 구축
최첨단 모델의 성능 부족을 확인하고 개선의 여지 제시
재현 가능한 연구를 위한 데이터셋 및 코드 공개
한계점:
벤치마킹 결과, 현재 모델들이 인간 수준의 성능에 미치지 못함
데이터셋 및 파이프라인의 잠재적인 편향성 (LLM 사용)
데이터셋이 특정 운영체제 (Windows) 및 애플리케이션 (오피스)에 제한됨
👍