Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

Created by
  • Haebom

Auteur

Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li

Contour

Cet article présente le système Robots Imitating Generated Videos (RIGVid). RIGVid permet aux robots d'effectuer des tâches de manipulation complexes telles que verser, essuyer et mélanger en imitant des vidéos générées par l'IA, sans démonstration physique ni formation spécifique. À partir de commandes vocales et d'images de scène initiales, un modèle de diffusion vidéo génère des vidéos de démonstration potentielles, et un modèle de langage visuel (MLV) filtre automatiquement les résultats non conformes aux commandes. Un système de suivi de pose 6D extrait les trajectoires des objets des vidéos, qui sont ensuite réaffectées au robot, quelle que soit l'implémentation. Des évaluations approfondies en conditions réelles montrent que les vidéos de génération filtrées sont aussi efficaces que les démonstrations réelles et que les performances augmentent avec la qualité de la génération. Nous montrons également que le recours aux vidéos de génération surpasse des alternatives plus concises, comme la prédiction de points clés à l'aide du MLV, et qu'un suivi de pose 6D robuste surpasse d'autres méthodes d'extraction de trajectoires, comme le suivi de caractéristiques denses. Ces résultats suggèrent que les vidéos générées par des modèles commerciaux de pointe peuvent constituer une source efficace de supervision pour la manipulation des robots.

Takeaways, Limitations

Takeaways:
Présentation de l'efficacité et de la faisabilité de l'apprentissage de la manipulation de robots à l'aide de vidéos générées par l'IA
Démontrer la possibilité d'apprendre à faire fonctionner un robot sans démonstration réelle
Confirmer l'importance du suivi de pose 6D et du filtrage VLM
Suggérant la possibilité d'utiliser la vidéo de production d'un modèle commercial comme source efficace de supervision de la manipulation des robots
Limitations:
Le __T498501_____ mentionné dans l'article n'est pas explicitement présenté. Des recherches supplémentaires sont nécessaires pour améliorer la qualité des vidéos générées et vérifier leur applicabilité à divers environnements de travail. Les performances de généralisation pour des types spécifiques de tâches de manipulation doivent être évaluées.
👍