Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
개요
UFO2는 멀티에이전트 기반의 Windows 데스크탑용 AgentOS로, 자연어를 통해 복잡한 데스크탑 워크플로우 자동화를 위한 컴퓨터 사용 에이전트(CUA)를 실용적인 시스템 레벨 자동화로 끌어올립니다. 중앙 집중식 HostAgent는 작업 분해 및 조정을 담당하고, 애플리케이션 특화 AppAgent는 네이티브 API, 도메인 특정 지식, 통합된 GUI-API 액션 계층을 통해 강력한 작업 실행과 모듈성 및 확장성을 제공합니다. Windows UI Automation(UIA)과 비전 기반 파싱을 결합한 하이브리드 제어 감지 파이프라인은 다양한 인터페이스 스타일을 지원하며, 추측적 멀티 액션 계획을 통해 LLM 오버헤드를 줄여 실행 효율성을 높입니다. Picture-in-Picture(PiP) 인터페이스는 에이전트와 사용자가 동시에 작동할 수 있도록 지원합니다. 20개 이상의 실제 Windows 애플리케이션에서 평가한 결과, 기존 CUA보다 강력성과 실행 정확도가 크게 향상되었음을 보여주며, 깊이 있는 OS 통합을 통해 신뢰할 수 있고 사용자 중심의 데스크탑 자동화를 위한 확장 가능한 경로를 제시합니다.