본 논문은 규칙 기반 보상을 사용한 강화 학습(RL)을 통해 그래픽 사용자 인터페이스(GUI) 작업 예측 과제에서 다중 모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 최초로 탐구합니다. 136개의 과제로 구성된 고품질 데이터셋을 구축하고, 통합된 규칙 기반 작업 보상을 도입하여 Group Relative Policy Optimization (GRPO)과 같은 정책 기반 알고리즘을 통한 모델 최적화를 가능하게 합니다. 데이터 효율적인 모델인 UI-R1-3B를 제시하며, AndroidControl(도메인 내) 및 ScreenSpot-Pro(도메인 외) 벤치마크에서 기준 모델(Qwen2.5-VL-3B) 대비 상당한 성능 향상을 보입니다. 특히, 도메인 내 작업에서 행동 유형 정확도는 15%, 근거 정확도는 10.3% 향상되었으며, 도메인 외 작업에서는 76,000개의 데이터로 감독식 미세 조정(SFT)을 통해 학습된 대규모 모델(예: OS-Atlas-7B)과 비슷한 성능을 달성합니다. 이는 규칙 기반 강화 학습이 GUI 이해 및 제어 발전에 잠재력이 있음을 보여줍니다.