haebom
Sign In
Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
작성자
Haebom
카테고리
Empty
저자
Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
개요
Vision-language 모델 기반 GUI 에이전트의 강화 학습 적용 시, 느린 상호작용과 불충분한 양질의 상호작용 문제를 해결하기 위해 DART(Decoupled Agentic RL Training) 프레임워크를 제안한다. DART는 비동기 모듈을 통해 시스템 효율성을 높이고, 적응형 데이터 큐레이션 방식을 통해 효과적인 학습을 지원한다. OSWorld 벤치마크에서 42.13%의 성공률을 달성하며 기존 모델 및 공개 SOTA를 능가한다.
시사점, 한계점
•
시사점:
◦
DART 프레임워크를 통해 GUI 에이전트의 강화 학습 효율성을 크게 향상시킴.
◦
비동기 모듈 설계를 통해 롤아웃 및 학습 속도 향상.
◦
적응형 데이터 큐레이션 기법을 통해 학습 효율성을 증대시킴.
◦
OSWorld 벤치마크에서 SOTA 달성.
◦
오픈소스화로 커뮤니티 기여.
•
한계점:
◦
논문에 구체적인 한계점 언급 없음.
PDF 보기
Made with Slashpage