Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Watch and Learn: Learning to Use Computers from Online Videos

Created by
  • Haebom
Category
Empty

저자

Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister

개요

본 논문은 컴퓨터 사용 에이전트(CUA)의 발전을 위해 인터넷 비디오를 활용하여 실행 가능한 UI 궤적을 대규모로 생성하는 Watch & Learn (W&L) 프레임워크를 제시한다. W&L은 사용자 작업을 예측하는 역동적 문제로 궤적 주석을 변환하여 학습을 단순화하고 여러 도메인에 걸쳐 일반화한다. 53,000개 이상의 고품질 궤적을 생성하여 CUA의 성능을 향상시키며, OSWorld 및 WindowsAgentArena에서 7B 규모 모델의 성능을 향상시켰다.

시사점, 한계점

시사점:
인터넷 비디오를 활용하여 대규모의 고품질 훈련 데이터를 생성할 수 있는 프레임워크 제시.
역동적 문제를 통해 학습을 단순화하고 다양한 도메인에 적용 가능한 UI 궤적 생성.
OSWorld 및 WindowsAgentArena에서 CUA의 성능 향상 입증.
웹 규모의 인간 시연 비디오가 실제 CUA 발전에 기여할 수 있음을 보여줌.
한계점:
구체적인 한계점에 대한 언급은 논문에 포함되지 않음. (논문의 요약 내용만 제시됨)
👍