Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
RoboTwin 2.0 : un générateur de données évolutif et une référence avec une forte randomisation de domaine pour une manipulation robotique bimanuelle robuste
RoboTwin 2.0 est un framework de génération de données à grande échelle, diversifié et réaliste, pour la manipulation évolutive à deux bras. Pour surmonter les limites des jeux de données existants (manque de méthodes de génération de tâches évolutives et environnements de simulation trop simplifiés), nous avons conçu un pipeline expert de synthèse de données utilisant un modèle de langage multimodal (MLLM) et un raffinement basé sur la simulation basé sur la bibliothèque d'objets RoboTwin-OD, qui contient 731 instances d'objets (147 catégories). Nous avons appliqué une randomisation de domaine structurée sur cinq axes (encombrement, éclairage, arrière-plan, hauteur de table et langue) afin d'améliorer le transfert de la simulation vers la réalité et d'accroître la diversité des données et la robustesse des politiques. En appliquant ce framework à 50 tâches à deux bras et cinq modèles de robot, nous avons obtenu une amélioration de 10,9 % du taux de réussite de la génération de code, une amélioration de 367 % des performances relatives lors de l'entraînement d'un modèle VLA à partir de données synthétiques et de 10 démonstrations réelles, et une amélioration de 228 % des performances par rapport à un modèle zero-shot entraîné uniquement sur des données synthétiques. Nous soutenons la recherche évolutive et robuste sur la manipulation à double bras en publiant des générateurs de données, des repères, des ensembles de données et du code.
Takeaways, Limitations_
•
Takeaways:
◦
Fournir un cadre de génération de données synthétiques à grande échelle, diversifié et réaliste pour une manipulation évolutive à double bras.
◦
Un pipeline de génération de tâches efficace est présenté à l'aide d'un modèle de langage multimodal et d'améliorations basées sur la simulation.
◦
Améliorer les performances de transition de la simulation vers la réalité et garantir la robustesse aux changements environnementaux grâce à une randomisation de domaine structurée.
◦
Apprentissage efficace des politiques et amélioration des performances à zéro coup grâce à des données synthétiques.
◦
Assurer le partage de la recherche et l'évolutivité via des générateurs de données, des benchmarks, des ensembles de données et la divulgation de code.
•
Limitations:
◦
La variété des modèles de robots et des tâches actuellement pris en charge peut être limitée.
◦
Il est difficile d’obtenir une correspondance parfaite avec l’environnement réel, des ajustements supplémentaires peuvent donc être nécessaires lors de l’application à l’environnement réel.
◦
La qualité de la génération de données peut être affectée par les performances de MLLM.
◦
La portée de la randomisation de domaine structuré doit être encore élargie.