다중 모드 대규모 언어 모델(MLLM) 기반 GUI 탐색 에이전트의 한계를 해결하기 위해, 구조화된 추론, 액션 예측, 히스토리 요약을 체계적으로 통합하는 추론 강화 프레임워크를 제안합니다. 이 프레임워크를 기반으로 GUI 에이전트 GUI-Rise를 구축하여, 유사 레이블된 트라젝토리와 그룹 상대 정책 최적화(GRPO)를 활용한 강화 학습을 통해 훈련했습니다. GUI-Rise는 히스토리 인식 목표를 포함한 특수 보상을 사용하며, 요약 품질을 후속 액션 성능과 직접 연결합니다. 표준 벤치마크에서 동등한 훈련 데이터 조건 하에 최첨단 결과를 달성했으며, 특히 도메인 밖 시나리오에서 강력한 성능을 보였습니다.