Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

Created by
  • Haebom

Auteur

Shivansh Patel, Shraddhaa Mohan, Hanlin Mai, Unnat Jain, Svetlana Lazebnik, Yunzhu Li

Contour

Cet article présente le système Robots Imitating Generated Videos (RIGVid). RIGVid permet aux robots d'effectuer des manipulations complexes telles que verser, essuyer et mélanger en imitant des vidéos générées par l'IA, sans démonstration physique ni formation spécifique. À partir d'une commande verbale et d'une image de scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration potentielles, et un modèle de langage visuel (MLV) filtre automatiquement les résultats non conformes à la commande. Un système de suivi de pose 6D extrait ensuite les trajectoires des objets des vidéos, qui sont ensuite réaffectées au robot, quelle que soit l'implémentation. Des évaluations approfondies en conditions réelles montrent que les vidéos de génération filtrées sont aussi efficaces que les démonstrations réelles, et que les performances s'améliorent avec la qualité de la génération. Nous montrons également que le recours aux vidéos de génération surpasse des alternatives plus concises, comme la prédiction de points clés à l'aide du MLV, et qu'un suivi de pose 6D robuste surpasse d'autres méthodes d'extraction de trajectoires, comme le suivi de caractéristiques denses. Ces résultats suggèrent que les vidéos générées par des modèles commerciaux de pointe peuvent être une source efficace de supervision pour la manipulation des robots.

Takeaways, Limitations

Takeaways:
En utilisant des vidéos générées par l’IA, nous présentons de nouvelles possibilités pour apprendre à manipuler des robots.
Aucune démonstration physique ni formation spécifique au robot n'est requise, ce qui permet d'économiser des coûts d'apprentissage et du temps.
Nous démontrons que l’amélioration de la qualité des vidéos générées conduit à de meilleures performances de manipulation des robots.
Souligne l’importance du suivi de pose 6D.
Limitations:
Cela dépend de la qualité des vidéos générées par l'IA, et les limitations du modèle génératif peuvent affecter les performances de manipulation du robot.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans différents environnements et tâches.
ÉTant donné que la précision du suivi de pose 6D affecte considérablement les performances, des contre-mesures en cas d'échec de suivi peuvent être nécessaires.
Elle est actuellement limitée à certains types de tâches de manipulation et des recherches sont nécessaires pour l’étendre à un plus large éventail de tâches.
👍