Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

작성자

Haebom

카테고리

Empty

저자

Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li

개요

Vision-language 모델 기반 GUI 에이전트의 강화 학습 적용 시, 느린 상호작용과 불충분한 양질의 상호작용 문제를 해결하기 위해 DART(Decoupled Agentic RL Training) 프레임워크를 제안한다. DART는 비동기 모듈을 통해 시스템 효율성을 높이고, 적응형 데이터 큐레이션 방식을 통해 효과적인 학습을 지원한다. OSWorld 벤치마크에서 42.13%의 성공률을 달성하며 기존 모델 및 공개 SOTA를 능가한다.