MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users
Created by
Haebom
저자
Wenhao Wang, Mengying Yuan, Zijie Yu, Guangyi Liu, Rui Ye, Tian Jin, Siheng Chen, Yanfeng Wang
개요
MobileA3gent은 분산된 사용자 데이터를 활용하여 모바일 GUI 에이전트를 훈련하는 협업 프레임워크입니다. 기존의 인력 기반 데이터 수집의 높은 비용 문제를 해결하기 위해, 사용자의 일상적인 휴대폰 사용 중 자동으로 고품질 데이터셋을 수집하는 Auto-Annotation과 비IID 분포 하에서 연합 학습을 개선하는 FedVLM-A라는 두 가지 구성 요소로 이루어져 있습니다. FedVLM-A는 에피소드 수준과 단계 수준의 변동성을 기반으로 적응된 전역 집계를 통합하여 성능을 향상시킵니다. 실험 결과, MobileA3gent는 기존 방식보다 훨씬 우수한 성능을 1%의 비용으로 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
모바일 GUI 에이전트 훈련을 위한 저렴하고 효율적인 데이터 수집 및 훈련 방법 제시.
◦
분산된 사용자 데이터를 활용하여 대규모 고품질 데이터셋 구축 가능성 제시.
◦
연합 학습의 효율성을 높이는 새로운 방법 제시.
◦
실제 응용 분야에 대한 잠재력을 보여줌.
•
한계점:
◦
Auto-Annotation의 정확도 및 신뢰도에 대한 추가적인 검증 필요.
◦
FedVLM-A의 성능 향상이 모든 유형의 비IID 데이터 분포에 대해 일반화되는지 추가 연구 필요.