Enhance Mobile Agents Thinking Process Via Iterative Preference Learning
Created by
Haebom
저자
Kun Huang, Weikai Xu, Yuxuan Liu, Quandong Wang, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang, Bo An
개요
본 논문은 GUI 작업에서 VLM 기반 모바일 에이전트의 추론 성능을 향상시키는 CoaT(Chain of Action-Planning Thoughts) 패러다임의 한계를 해결하기 위해 Iterative Preference Learning (IPL)을 제안합니다. IPL은 반복적인 샘플링을 통해 CoaT-tree를 구성하고, 규칙 기반 보상을 사용하여 리프 노드를 평가하고, 피드백을 역전파하여 Thinking-level Direct Preference Optimization (T-DPO) 쌍을 도출합니다. 또한, GPT-4를 활용한 3단계 지침 진화를 통해 과적합을 방지하고 일반화 및 레이아웃 이해 능력을 향상시킵니다. 세 가지 표준 Mobile GUI-agent 벤치마크에서 기존 최고 성능을 능가하며, 특히 OS-ATLAS 및 UI-TARS와 같은 지속적 사전 훈련 모델보다 우수한 성능을 보였습니다. 다양한 상황에 대한 일반화 능력도 강조됩니다.
시사점, 한계점
•
시사점:
◦
CoaT 패러다임의 한계점인 데이터 부족 문제를 IPL을 통해 효과적으로 해결.
◦
규칙 기반 보상과 T-DPO를 활용하여 효율적인 학습 및 성능 향상.
◦
GPT-4 기반 3단계 지침 진화를 통해 일반화 및 레이아웃 이해 능력 향상.
◦
세 가지 표준 Mobile GUI-agent 벤치마크에서 SOTA 성능 달성 및 뛰어난 일반화 능력 입증.
•
한계점:
◦
제안된 IPL 방법의 계산 비용 및 복잡도에 대한 분석 부족.
◦
다양한 유형의 GUI 작업 및 복잡한 상호작용에 대한 일반화 성능에 대한 추가적인 실험 필요.