Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LaDi-WM : un modèle mondial basé sur la diffusion latente pour la manipulation prédictive

Created by
  • Haebom

Auteur

Yuhang Huang, Jiazhao Zhang, Shilong Zou, Xinwang Liu, Ruizhen Hu, Kai Xu

Contour

Cet article se concentre sur la manipulation prédictive, qui exploite les états prédits pour améliorer les performances des politiques robotiques. Pour pallier la difficulté des modèles du monde existants à générer avec précision les futurs états visuels des interactions robot-objet, notamment au niveau pixel, nous proposons LaDi-WM, un modèle du monde qui prédit l'espace latent des futurs états grâce à la modélisation par diffusion. LaDi-WM intègre des caractéristiques géométriques (basées sur DINO) et sémantiques (basées sur CLIP) en exploitant des modèles visuels pré-entraînés (VFM) et des espaces latents alignés. Nous démontrons que la prédiction des changements dans l'espace latent facilite l'apprentissage et se généralise mieux que la prédiction directe d'images au niveau pixel. Sur la base de LaDi-WM, nous concevons une politique de diffusion qui améliore itérativement le comportement de sortie en intégrant les états prédits, ce qui produit des résultats plus cohérents et précis. Des expériences approfondies sur des benchmarks synthétiques et réels démontrent que LaDi-WM améliore les performances des politiques de 27,9 % sur le benchmark LIBERO-LONG et de 20 % dans des scénarios réels, obtenant des performances de généralisation impressionnantes même dans les expériences réelles.

Takeaways, Limitations

Takeaways:
Un modèle mondial basé sur la prédiction de l'espace latent utilisant la modélisation par diffusion, LaDi-WM, est proposé et s'avère plus efficace et offre de meilleures performances de généralisation que la prédiction pixel par pixel.
Nous montrons que la précision et la cohérence de la manipulation du robot peuvent être améliorées en utilisant une politique de diffusion qui utilise des états prédits.
Nous avons obtenu des améliorations de performances remarquables dans les environnements LIBERO-LONG et réels.
Nous avons démontré d’excellentes performances de généralisation dans des environnements réels.
Limitations:
Les performances de LaDi-WM peuvent dépendre des performances du VFM utilisé.
Il est possible qu’il ne reflète pas parfaitement la complexité et la diversité des environnements réels.
En raison des limites du benchmark, une validation supplémentaire des performances de généralisation peut être nécessaire.
Les coûts de calcul peuvent être élevés (bien que cela ne soit pas explicitement indiqué, la nature du modèle de diffusion suggère que le coût de calcul est susceptible d’être élevé).
👍