Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Created by
  • Haebom

저자

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

개요

본 논문은 새로운 소프트웨어 환경에서 인간의 개입 없이도 스스로 학습하고 진화하는 컴퓨터 사용 에이전트(CUA)를 위한 프레임워크인 SEAgent를 제안합니다. SEAgent는 대규모 비전-언어 모델(LVLMs)을 기반으로 하며, 시행착오를 통한 경험적 학습을 통해 새로운 소프트웨어를 익힙니다. 단순한 작업부터 복잡한 작업까지 점진적으로 수행하는 자동 생성 작업을 통해 학습하며, 세부적인 단계별 경로 평가를 위한 World State Model과 점점 더 다양하고 어려운 작업을 생성하는 Curriculum Generator를 사용합니다. 에이전트의 정책은 실패 행동에 대한 적대적 모방과 성공적인 행동에 대한 Group Relative Policy Optimization (GRPO)을 통해 업데이트됩니다. 또한, 전문화된 에이전트의 경험적 통찰력을 통합하는 전문가-일반화 전략을 통해 지속적인 자율적 진화가 가능한 강력한 일반화 CUA를 개발합니다. OS-World 내의 5가지 새로운 소프트웨어 환경에서 SEAgent의 효과를 검증하여 기존의 오픈소스 CUA인 UI-TARS보다 성공률을 23.2% (11.3%에서 34.5%로) 향상시켰습니다.

시사점, 한계점

시사점:
인간의 개입 없이도 새로운 소프트웨어를 학습하고 적응하는 CUA의 가능성을 보여줌.
경험적 학습과 Curriculum Generator를 통해 효율적인 학습 전략을 제시함.
전문가-일반화 전략을 통해 일반적인 CUA 성능 향상을 달성함.
기존 CUA 대비 상당한 성능 향상을 달성함.
한계점:
OS-World라는 특정 환경에서만 검증되었으므로 일반화 가능성에 대한 추가 연구 필요.
실제 복잡한 소프트웨어 환경에서의 성능 검증이 추가적으로 필요함.
World State Model과 Curriculum Generator의 설계가 특정 환경에 최적화되어 있을 가능성 존재.
에이전트의 학습 과정에서 발생할 수 있는 예측 불가능성에 대한 추가적인 분석 필요.
👍