Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

개요

본 논문은 규칙 기반 보상을 사용한 강화 학습(RL)을 통해 그래픽 사용자 인터페이스(GUI) 작업 예측 과제에서 다중 모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 최초로 탐구합니다. 136개의 과제로 구성된 고품질 데이터셋을 구축하고, 통합된 규칙 기반 작업 보상을 도입하여 Group Relative Policy Optimization (GRPO)과 같은 정책 기반 알고리즘을 통한 모델 최적화를 가능하게 합니다. 데이터 효율적인 모델인 UI-R1-3B를 제시하며, AndroidControl(도메인 내) 및 ScreenSpot-Pro(도메인 외) 벤치마크에서 기준 모델(Qwen2.5-VL-3B) 대비 상당한 성능 향상을 보입니다. 특히, 도메인 내 작업에서 행동 유형 정확도는 15%, 근거 정확도는 10.3% 향상되었으며, 도메인 외 작업에서는 76,000개의 데이터로 감독식 미세 조정(SFT)을 통해 학습된 대규모 모델(예: OS-Atlas-7B)과 비슷한 성능을 달성합니다. 이는 규칙 기반 강화 학습이 GUI 이해 및 제어 발전에 잠재력이 있음을 보여줍니다.

시사점, 한계점

시사점:
규칙 기반 강화 학습을 통해 MLLM의 GUI 작업 예측 능력을 효과적으로 향상시킬 수 있음을 보여줌.
데이터 효율적인 모델 학습을 통해 적은 데이터로도 우수한 성능을 달성 가능함을 시사.
도메인 내외에서 모두 기존 모델 대비 성능 향상을 확인, 실용적인 적용 가능성 제시.
한계점:
사용된 데이터셋의 규모가 상대적으로 작음 (136개 과제).
특정 유형의 모바일 GUI 작업에만 집중, 일반화 가능성에 대한 추가 연구 필요.
다양한 유형의 GUI 및 상호작용에 대한 일반화 성능 평가가 추가적으로 필요.
👍