Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards

Created by
  • Haebom

作者

Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng

概要

この論文では、モバイル環境で複雑なコマンドとスクリーンショットを理解し、強化学習(GRPO)を介して行動を最適化するビジュアル言語モデルベースのモバイルエージェントを研究します。従来の研究では、オフライン強化学習訓練や行動単位補償を用いたオンライン最適化に集中し、エージェントの動的環境相互作用を制限し、地域的最適点に陥る問題点がありました。これを解決するために、この論文は作業単位補償を使用する相互作用的多重強化学習技術であるMobile-R1を提案します。 Mobile-R1は、初期形式の微調整、行動単位補償によるシングルステップオンライントレーニング、および多重回線経路に基づく作業単位補償によるオンライントレーニングの3つのステップで構成されています。 28の中国語アプリケーションを含む24,521の高品質パッシブ注釈データセットと500パスの新しいベンチマークを構築し、データセット、ベンチマーク、モデルの重み、コードを公開します( https://mobile-r1.github.io/Mobile-R1/ )。

Takeaways、Limitations

Takeaways:
作業単位報酬を活用した多重回線強化学習により、モバイルエージェントの探索能力とエラー訂正能力の向上
28の中国語アプリ、24,521の高品質パッシブ注釈データセット、ベンチマーク公開による研究開発に貢献
Mobile-R1の優れた性能によりモバイルエージェント研究に新たな可能性を提示
Limitations:
現在、データセットは中国語アプリに限定されており、他の言語や文化への一般化の可能性に関するさらなる研究が必要です
作業単位補償設計の複雑さと最適化問題の追加研究が必要
さまざまなモバイル環境やアプリで一般化されたパフォーマンス評価が必要
👍