Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Mobile-R1 : Vers un apprentissage par renforcement interactif pour les agents mobiles basés sur VLM via des récompenses au niveau des tâches
Created by
Haebom
Auteur
Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng
Contour
Dans cet article, nous étudions un agent mobile basé sur un modèle de langage visuel. Il comprend des commandes et des captures d'écran complexes dans un environnement mobile et optimise ses actions par apprentissage par renforcement (GRPO). Des études antérieures se sont concentrées sur l'apprentissage par renforcement hors ligne ou l'optimisation en ligne utilisant des récompenses par unités d'action, ce qui limitait l'interaction dynamique de l'agent avec l'environnement et le bloquait souvent dans des optima locaux. Pour résoudre ces problèmes, cet article propose Mobile-R1, une technique interactive d'apprentissage par renforcement multi-tours utilisant des récompenses par unités d'action. Mobile-R1 se compose de trois étapes : un réglage fin initial du format, un apprentissage en ligne en une seule étape avec récompenses par unités d'action, et un apprentissage en ligne avec récompenses par unités d'action basé sur des chemins multi-tours. Nous construisons un nouveau benchmark de 500 chemins et un ensemble de données de haute qualité, annotées manuellement, de 24 521 applications chinoises. Nous divulguons l'ensemble de données, le benchmark, les pondérations du modèle et le code ( https://mobile-r1.github.io/Mobile-R1/ ).
Amélioration des capacités d'exploration et de correction d'erreurs des agents mobiles grâce à l'apprentissage par renforcement multi-tours utilisant des récompenses par unité de travail
◦
Contribuer à l'avancement de la recherche en publiant 28 applications chinoises, 24 521 ensembles de données annotés manuellement de haute qualité et des repères
◦
Les performances supérieures du Mobile-R1 offrent de nouvelles possibilités pour la recherche d'agents mobiles
•
Limitations:
◦
L'ensemble de données actuel est limité aux applications chinoises, des recherches supplémentaires sont donc nécessaires pour déterminer la généralisabilité à d'autres langues et cultures.
◦
Des recherches supplémentaires sont nécessaires sur la complexité et les problèmes d’optimisation de la conception de la rémunération des unités de travail.
◦
Il est nécessaire d'évaluer les performances de généralisation dans divers environnements et applications mobiles.