본 논문은 규칙 기반 강화 학습을 사용하여 그래픽 사용자 인터페이스(GUI) 작업 예측 능력을 향상시키는 다중 모드 대규모 언어 모델(MLLM)을 위한 최초의 프레임워크인 UI-R1을 제안합니다. UI-R1은 새로운 규칙 기반 행동 보상을 도입하여 GRPO(Group Relative Policy Optimization)와 같은 정책 기반 알고리즘을 통한 모델 최적화를 가능하게 합니다. 모바일 기기의 5가지 일반적인 행동 유형을 포함하는 136개의 과제로 구성된 소규모 고품질 데이터 세트를 사용하여 효율적인 훈련을 수행합니다. 실험 결과, 제안된 UI-R1-3B는 기준 모델(Qwen2.5-VL-3B)에 비해 도메인 내(ID) 및 도메인 외(OOD) 작업 모두에서 상당한 성능 향상을 보이며, ScreenSpot에서 22.1%, ScreenSpot-Pro에서 6.0%, ANDROIDCONTROL에서 12.7%의 평균 정확도 향상을 달성했습니다. 또한, 76,000개의 샘플에 대해 지도 학습 미세 조정(SFT)을 통해 훈련된 더 큰 모델(예: OS-Atlas-7B)과 비교하여 경쟁력 있는 성능을 제공합니다. 추가적으로, 접지 효율과 정확도를 크게 향상시킨 최적화 버전인 UI-R1-E-3B를 개발했습니다. 이러한 결과는 규칙 기반 강화 학습이 GUI 이해 및 제어를 발전시킬 수 있는 잠재력을 강조하며, 이 분야의 향후 연구에 대한 길을 열어줍니다.