본 논문은 컴퓨터 사용 에이전트(CUA) 발전을 위해 설계된 대규모의 포괄적인 데이터셋 및 벤치마크 스위트인 GUI-360°를 소개합니다. GUI-360°는 실제 CUA 작업 부족, 다중 모달 궤적을 위한 자동화된 수집 및 주석 파이프라인 부재, GUI 그라운딩, 화면 파싱, 액션 예측을 공동으로 평가하는 통합 벤치마크 부재라는 세 가지 주요 문제점을 해결하고자 합니다. GUI-360°는 LLM(Large Language Model)으로 강화된 파이프라인을 활용하여 쿼리 소싱, 환경 템플릿 구성, 작업 인스턴스화, 배치 실행, LLM 기반 품질 필터링을 수행합니다. 이 데이터셋은 Windows 오피스 애플리케이션에서 120만 개 이상의 실행된 액션 단계를 포함하며, 전체 해상도 스크린샷, 접근성 메타데이터, 인스턴스화된 목표, 중간 추론 추적, 성공 및 실패 액션 궤적을 포함합니다. GUI-360°는 GUI 그라운딩, 화면 파싱, 액션 예측의 세 가지 주요 작업과 현대 에이전트 설계를 반영하는 하이브리드 GUI+API 액션 공간을 지원합니다. 최첨단 비전-언어 모델을 GUI-360°에서 벤치마킹한 결과, 그라운딩 및 액션 예측에서 상당한 단점이 발견되었습니다. 지도 학습 기반 미세 조정 및 강화 학습을 통해 상당한 개선이 있었지만, 인간 수준의 신뢰도에는 미치지 못했습니다. GUI-360° 및 관련 코드는 재현 가능한 연구를 촉진하고 데스크톱 CUA의 발전을 가속화하기 위해 공개되었습니다.