Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OpenCUA: Open Foundations for Computer-Use Agents

Created by
  • Haebom

저자

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Haotian Yao, Ziwei Chen, Qizheng Gu, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

개요

본 논문은 컴퓨터 사용 에이전트(CUA)의 잠재력과 접근성을 높이기 위한 오픈소스 프레임워크인 OpenCUA를 제안합니다. OpenCUA는 인간의 컴퓨터 사용 데모를 캡처하는 주석 인프라, 3개의 운영 체제와 200개 이상의 애플리케이션 및 웹사이트를 포함하는 대규모 컴퓨터 사용 작업 데이터 세트인 AgentNet, 그리고 데모를 상태-행동 쌍으로 변환하는 확장 가능한 파이프라인으로 구성됩니다. OpenCUA-32B 모델은 OSWorld-Verified 벤치마크에서 34.8%의 성공률을 달성하여 오픈소스 모델 중 최고 성능을 기록했으며, OpenAI CUA (GPT-4o)를 능가했습니다. 본 연구는 주석 도구, 데이터 세트, 코드 및 모델을 공개하여 CUA 연구의 기반을 마련합니다.

시사점, 한계점

시사점:
오픈소스 CUA 프레임워크 제공을 통한 CUA 연구의 진전 및 접근성 향상.
대규모 컴퓨터 사용 작업 데이터셋 AgentNet 공개.
OpenCUA-32B 모델을 통해 오픈소스 모델의 성능 한계를 뛰어넘음.
다양한 도메인에서의 일반화 성능 확인 및 테스트 시간 계산 증가에 따른 성능 향상 확인.
한계점:
현재 성능은 여전히 완벽하지 않으며 (34.8% 성공률), 더 높은 성능을 위한 추가 연구가 필요함.
AgentNet 데이터셋의 범위와 다양성에 대한 추가적인 개선이 필요할 수 있음.
특정 운영 체제 및 애플리케이션에 대한 편향성 존재 가능성.
👍