본 논문은 GUI 작업에서 VLM 기반 모바일 에이전트의 추론 성능을 향상시키는 CoaT(Chain of Action-Planning Thoughts) 패러다임의 한계점을 해결하기 위해 Iterative Preference Learning (IPL)을 제안합니다. 기존의 자기 학습 방식이 중간 추론 단계의 정확성을 간과하거나 비용이 많이 드는 프로세스 수준의 주석에 의존하는 문제를 해결하기 위해, IPL은 반복적인 샘플링을 통해 CoaT-tree를 구성하고, 규칙 기반 보상으로 리프 노드를 평가하며, 피드백을 역전파하여 Thinking-level Direct Preference Optimization (T-DPO) 쌍을 도출합니다. 또한, GPT-4를 활용한 3단계 지시 사항 진화 과정을 통해 과적합을 방지하고, 다양한 질문과 답변 쌍을 생성하여 일반화 능력과 레이아웃 이해 능력을 향상시킵니다. 세 가지 표준 모바일 GUI 에이전트 벤치마크에서 OS-ATLAS 및 UI-TARS와 같은 지속적 사전 훈련 모델을 포함한 강력한 기준 모델보다 뛰어난 성능을 달성하며, 도메인 외 시나리오에 대한 강력한 일반화 능력을 보여줍니다.