Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation

Created by
  • Haebom
Category
Empty

저자

Zehao Deng, Tianjie Ju, Zheng Wu, Zhuosheng Zhang, Gongshen Liu

개요

대규모 비전-언어 모델(VLM)의 발전으로 GUI 에이전트 연구가 활발해졌지만, 장기적 태스크 처리에는 어려움이 있다. 단일 에이전트 모델은 높은 수준의 능력과 낮은 수준의 실행 능력의 균형을 맞추기 어려우며, 태스크 상태에 대한 인식이 부족하여 진행 손실이 발생한다. 이러한 문제를 해결하기 위해, 본 논문에서는 staged execution-feedback 강화 학습 알고리즘을 제안한다. 고수준 스케줄링 모델 훈련에 초점을 맞춰, 전략적 계획 및 태스크 분할을 담당하는 Coordinator, 문맥 압축 및 정보 관리를 통해 태스크 상태를 유지하는 State Tracker 두 에이전트를 훈련시킨다. Coordinator-Executor-State Tracker (CES) 다중 에이전트 프레임워크를 구축하여, 모든 저수준 Executor 모델과 통합될 수 있도록 설계했다. CES는 태스크 스케줄링 및 상태 관리를 통해 Executor가 장기적 태스크를 해결하도록 돕는다. 실험 결과, CES는 시스템의 계획 및 상태 관리 능력을 향상시켰으며, 훈련된 고수준 스케줄링 모듈은 다양한 Executor의 장기적 능력을 향상시키는 일반화 가능한 plug-and-play 모듈임을 확인했다.

시사점, 한계점

시사점:
장기적 태스크를 처리하는 GUI 에이전트의 성능 향상.
Coordinator-Executor-State Tracker (CES) 다중 에이전트 프레임워크 제안.
고수준 스케줄링 모듈의 일반화 가능성 및 plug-and-play 특성 입증.
한계점:
논문에서 구체적인 한계점 언급 없음.
👍