Watch and Learn: Learning to Use Computers from Online Videos
Created by
Haebom
Category
Empty
저자
Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister
개요
본 논문은 컴퓨터 사용 에이전트(CUA)의 발전을 위해 인터넷 비디오를 활용하여 실행 가능한 UI 궤적을 대규모로 생성하는 Watch & Learn (W&L) 프레임워크를 제시한다. W&L은 사용자 작업을 예측하는 역동적 문제로 궤적 주석을 변환하여 학습을 단순화하고 여러 도메인에 걸쳐 일반화한다. 53,000개 이상의 고품질 궤적을 생성하여 CUA의 성능을 향상시키며, OSWorld 및 WindowsAgentArena에서 7B 규모 모델의 성능을 향상시켰다.