본 논문은 규칙 기반 보상을 사용한 강화 학습(RL)을 통해 그래픽 사용자 인터페이스(GUI) 액션 예측 작업에서 다중 모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 최초로 탐구합니다. 136개의 과제로 구성된 고품질 데이터셋을 사용하여 모바일 기기에서 5가지 일반적인 액션 유형을 포함하는 모델을 학습시켰습니다. 통합된 규칙 기반 액션 보상과 GRPO(Group Relative Policy Optimization)와 같은 정책 기반 알고리즘을 도입하여 모델을 최적화했습니다. 실험 결과, 제안된 데이터 효율적인 모델 UI-R1-3B가 도메인 내(ID) 및 도메인 외(OOD) 작업 모두에서 상당한 성능 향상을 보였음을 보여줍니다. 특히, ID 벤치마크인 AndroidControl에서 액션 유형 정확도는 15%, 그라운딩 정확도는 10.3% 향상되었으며, OOD GUI 그라운딩 벤치마크인 ScreenSpot-Pro에서는 기준 모델보다 6.0% 높은 성능을 달성하여 76K 데이터로 감독식 미세 조정(SFT)을 통해 학습된 대형 모델(예: OS-Atlas-7B)과 경쟁력 있는 성능을 보였습니다. 이러한 결과는 규칙 기반 강화 학습이 GUI 이해 및 제어를 발전시키는 잠재력을 강조하며, 이 분야의 미래 연구에 대한 길을 열어줍니다.