MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning
Created by
Haebom
Category
Empty
저자
Kun Huang, Weikai Xu, Yuxuan Liu, Quandong Wang, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang, Bo An
💡 개요
본 연구는 시각-언어 모델(VLM) 기반 모바일 에이전트의 추론 성능을 향상시키기 위해 Chain of Action-Planning Thoughts (CoaT) 패러다임을 개선하는 MobileIPL 방법론을 제안합니다. CoaT 궤적의 다양성 부족 문제를 해결하기 위해, 반복적 샘플링을 통해 CoaT-트리를 구축하고 규칙 기반 보상으로 리프 노드를 평가한 뒤, 이를 T-DPO(Thinking-level Direct Preference Optimization) 쌍 생성에 활용합니다. 또한, GPT-4o를 이용한 3단계 명령어 진화를 통해 데이터셋의 다양성과 레이아웃 이해도를 높여, 기존 최신 모델 대비 뛰어난 성능과 일반화 능력을 달성했습니다.
🔑 시사점 및 한계
•
VLM 기반 모바일 에이전트의 추론 과정 다양성 확보를 위한 효과적인 반복적 학습 및 선호도 학습 방법론 제시.
•
데이터 부족 문제를 해결하면서도 중간 추론 단계의 정확성을 보장하는 새로운 접근 방식.
•
실제 모바일 UI 스크린샷을 활용한 GPT-4o 기반 데이터 증강으로 일반화 성능 및 레이아웃 이해도 향상.
•
향후 연구에서는 규칙 기반 보상 시스템의 확장성 및 다양한 모바일 환경에서의 적용 가능성 탐색이 필요함.