Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Created by
  • Haebom

저자

Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

개요

본 논문은 규칙 기반 보상을 사용한 강화 학습(RL)을 통해 그래픽 사용자 인터페이스(GUI) 액션 예측 작업에서 다중 모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 최초로 탐구합니다. 136개의 과제로 구성된 고품질 데이터셋을 사용하여 모바일 기기에서 5가지 일반적인 액션 유형을 포함하는 모델을 학습시켰습니다. 통합된 규칙 기반 액션 보상과 GRPO(Group Relative Policy Optimization)와 같은 정책 기반 알고리즘을 도입하여 모델을 최적화했습니다. 실험 결과, 제안된 데이터 효율적인 모델 UI-R1-3B가 도메인 내(ID) 및 도메인 외(OOD) 작업 모두에서 상당한 성능 향상을 보였음을 보여줍니다. 특히, ID 벤치마크인 AndroidControl에서 액션 유형 정확도는 15%, 그라운딩 정확도는 10.3% 향상되었으며, OOD GUI 그라운딩 벤치마크인 ScreenSpot-Pro에서는 기준 모델보다 6.0% 높은 성능을 달성하여 76K 데이터로 감독식 미세 조정(SFT)을 통해 학습된 대형 모델(예: OS-Atlas-7B)과 경쟁력 있는 성능을 보였습니다. 이러한 결과는 규칙 기반 강화 학습이 GUI 이해 및 제어를 발전시키는 잠재력을 강조하며, 이 분야의 미래 연구에 대한 길을 열어줍니다.

시사점, 한계점

시사점:
규칙 기반 강화 학습을 통해 MLLM의 GUI 액션 예측 능력을 효과적으로 향상시킬 수 있음을 보여줌.
데이터 효율적인 모델 학습을 통해 소규모 고품질 데이터셋으로도 우수한 성능을 달성 가능함을 제시.
기존 대규모 모델과 비교하여 경쟁력 있는 성능을 보임.
GUI 이해 및 제어 분야의 미래 연구에 대한 새로운 방향 제시.
한계점:
사용된 데이터셋의 규모가 상대적으로 작음.
특정 유형의 모바일 GUI에 집중되어 있어 일반화 가능성에 대한 추가 연구 필요.
다른 RL 알고리즘과의 비교 분석이 부족함.
다양한 유형의 GUI 및 액션에 대한 일반화 성능 평가가 추가적으로 필요.
👍