본 논문은 GUI 에이전트의 성능 향상을 위해 R1-Zero 패러다임을 활용한 기존 연구의 세 가지 핵심 구성 요소(입력 설계, 출력 평가, 정책 업데이트)에 대한 심층 분석을 수행하고, 그 한계점을 지적합니다. 기존 방식의 문제점으로는, 긴 사고 과정이 오히려 성능 저하를 야기하는 입력 설계, 보상 해킹으로 이어지는 출력 평가 방식, 그리고 쉬운 예시에 대한 과적합으로 인한 어려운 예시에 대한 성능 저하를 꼽습니다. 이러한 문제점을 해결하기 위해, 직접적인 답변 생성을 유도하는 'Fast Thinking Template', 보상 해킹을 완화하는 상자 크기 제약 조건이 포함된 보상 함수, 그리고 난이도를 고려한 가중치 조정을 포함하는 RL 목적 함수 수정 등 세 가지 해결책을 제시합니다. 제안된 방법으로 학습된 GUI-G1-3B 모델은 ScreenSpot 및 ScreenSpot-Pro 데이터셋에서 기존 모델들을 능가하는 성능을 보이며 새로운 최첨단 기술을 제시합니다.