[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Pilotage de politiques latentes avec des modèles mondiaux pré-entraînés et indépendants de l'incarnation

Created by
  • Haebom

Auteur

Yiqi Wang, Mrinal Verghese, Jeff Schneider

Contour

Cet article est une étude visant à résoudre la difficulté de collecte de données lors de l'apprentissage de la politique de contrôle visuo-moteur des robots. Alors que la méthode d'apprentissage par imitation existante nécessite un volume important de données d'apprentissage, cette étude propose une méthode permettant de réduire ce volume en utilisant différents types de données (robot, humain). L'idée principale est, tout d'abord, d'apprendre le modèle du monde (WM) avec différents types de données en utilisant le flux optique, puis de l'affiner avec une petite quantité de données sur le robot cible. Ensuite, d'améliorer le rendement de la politique de réplication d'actions grâce à la technique de pilotage de politique latente (LPS) afin de trouver une meilleure séquence d'actions dans l'espace latent du WM. Les résultats expérimentaux montrent que les performances de la politique apprise avec des données limitées (30 démonstrations : plus de 50 %, 50 démonstrations : plus de 20 %) sont significativement améliorées lorsqu'elle est combinée avec le WM pré-entraîné à l'aide de l'ensemble de données d'incarnation Open X- ou de données de jeu humain.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’exploitation de diverses formes de données (robots, humains) peut réduire considérablement la quantité de données nécessaires à l’apprentissage des politiques de contrôle visuo-moteur des robots.
Nous démontrons que les techniques WM et LPS basées sur le flux optique peuvent atteindre des performances élevées même avec des données limitées.
L’efficacité de la méthode proposée est vérifiée par des expériences réelles sur des robots.
Limitations:
Les performances peuvent être affectées par la qualité et la quantité des données de pré-formation, telles que l'ensemble de données d'incarnation Open __T2514_____ ou les données de jeu humain.
Des recherches supplémentaires pourraient être nécessaires sur l’efficacité de l’exploration spatiale latente de la technique LPS.
Une évaluation plus approfondie des performances de généralisation dans différentes tâches et environnements est nécessaire.
👍