GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Author

Haebom

저자

Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baolin Peng, Huan Zhang, Jianfeng Gao, Tong Zhang

💡 개요

본 논문은 오픈 소스 GUI 에이전트가 장기 탐색 작업에서 폐쇄 소스 시스템에 뒤처지는 문제를 해결하기 위해 GUI-Libra라는 새로운 훈련 방법을 제안합니다. 기존 훈련 방식의 두 가지 주요 한계점인 (1) 부족한 고품질, 행동 정렬 추론 데이터와 (2) 부분 검증 가능한 RL 훈련 문제를 극복하고자 합니다. GUI-Libra는 행동 정렬 추론 데이터셋 구축 및 필터링, 행동 인지형 SFT(Supervised Fine-Tuning), 그리고 KL 정규화를 활용한 RL 훈련을 통해 성능 향상을 이끌어냅니다.

🔑 시사점 및 한계

•

고품질 행동 정렬 추론 데이터의 중요성: 81K 규모의 GUI 추론 데이터셋 구축 및 공개를 통해 데이터의 질적 향상이 GUI 에이전트 성능 개선에 핵심적임을 보여줍니다.

•

추론과 행동 정렬의 효과적인 결합: 행동 인지형 SFT를 통해 추론 과정과 실제 행동 간의 연관성을 강화하고, grounding 성능을 향상시키는 방법을 제시합니다.

•

부분 검증 가능성 환경에서의 RL 안정화: KL 정규화와 성공 기반 스케일링을 통해 부분적으로만 검증 가능한 RL 환경에서도 에이전트의 안정적인 학습과 온라인 성능 예측력을 높이는 방안을 제시합니다.

•

한계점: 제안된 방법론이 특정 유형의 GUI 작업에 더 효과적일 수 있으며, 실제 복잡하고 동적인 환경에서의 일반화 성능에 대한 추가적인 검증이 필요합니다. 또한, 데이터 구축 및 필터링 과정에 대한 인간의 개입이 여전히 필요할 수 있습니다.

PDF 보기

Made with Slashpage