Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage de modèles primitifs du monde incarné : vers un apprentissage robotique évolutif

Created by
  • Haebom

Auteur

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

Contour

Pour remédier au principal obstacle que constitue la dépendance aux données d'interaction corporelle à grande échelle, cet article propose les Modèles du Monde Incarné Primitifs (PEWM), un nouveau paradigme de modélisation du monde axé sur des horizons temporels limités et à court terme. En limitant la génération vidéo à un horizon temporel fixe et à court terme, le PEWM permet un alignement précis entre les concepts linguistiques et les représentations visuelles des mouvements du robot, réduisant ainsi la complexité de l'apprentissage, améliorant l'efficacité de la collecte des données corporelles et réduisant la latence d'inférence. Équipé d'un planificateur modulaire de Modèle Vision-Langage (VLM) et d'un mécanisme de guidage par carte thermique Début-Objectif (SGG), il permet un contrôle flexible en boucle fermée et prend en charge la généralisation constructive des politiques de niveau primitif à des tâches complexes. S'appuyant sur les a priori visuels spatio-temporels des modèles vidéo et la compréhension sémantique des VLM, il comble le fossé entre interaction physique fine et inférence de haut niveau, ouvrant la voie à une intelligence corporelle évolutive, interprétable et polyvalente.

Takeaways, Limitations

Takeaways:
Présentation d’un nouveau paradigme de modélisation du monde qui aborde le problème de la dépendance des données à grande échelle.
Amélioration de l'alignement précis entre le langage et le comportement
Réduction de la complexité de la formation et de la latence d'inférence
Une collecte efficace des données corporelles est possible
Prise en charge de la généralisation constructive pour les tâches complexes
Présenter la possibilité d’une intelligence corporelle évolutive, interprétable et à usage général.
Limitations:
Difficulté de planification et de prévision à long terme en raison d'horizons à court terme limités
Flexibilité limitée en raison de la dépendance à un ensemble fixe de comportements primitifs
Dépendance aux performances de VLM et SGG
Une vérification supplémentaire de l’applicabilité et des performances de généralisation aux systèmes robotiques réels est nécessaire.
👍