Sign In

MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning

Created by
  • Haebom
Category
Empty

저자

Kun Huang, Weikai Xu, Yuxuan Liu, Quandong Wang, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang, Bo An

💡 개요

본 연구는 시각-언어 모델(VLM) 기반 모바일 에이전트의 추론 성능을 향상시키기 위해 Chain of Action-Planning Thoughts (CoaT) 패러다임을 개선하는 MobileIPL 방법론을 제안합니다. CoaT 궤적의 다양성 부족 문제를 해결하기 위해, 반복적 샘플링을 통해 CoaT-트리를 구축하고 규칙 기반 보상으로 리프 노드를 평가한 뒤, 이를 T-DPO(Thinking-level Direct Preference Optimization) 쌍 생성에 활용합니다. 또한, GPT-4o를 이용한 3단계 명령어 진화를 통해 데이터셋의 다양성과 레이아웃 이해도를 높여, 기존 최신 모델 대비 뛰어난 성능과 일반화 능력을 달성했습니다.

🔑 시사점 및 한계

VLM 기반 모바일 에이전트의 추론 과정 다양성 확보를 위한 효과적인 반복적 학습 및 선호도 학습 방법론 제시.
데이터 부족 문제를 해결하면서도 중간 추론 단계의 정확성을 보장하는 새로운 접근 방식.
실제 모바일 UI 스크린샷을 활용한 GPT-4o 기반 데이터 증강으로 일반화 성능 및 레이아웃 이해도 향상.
향후 연구에서는 규칙 기반 보상 시스템의 확장성 및 다양한 모바일 환경에서의 적용 가능성 탐색이 필요함.
👍