Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RoboMonkey : Adaptation de l'échantillonnage et de la vérification au temps de test pour les modèles vision-langage-action

Created by
  • Haebom

Auteur

Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone

Contour

Cet article présente une technique de mise à l'échelle en temps de test pour améliorer la robustesse du modèle Vision-Langage-Action (VLA) dans des environnements réels non structurés. Nous étudions comment améliorer la robustesse et les performances de généralisation du VLA par échantillonnage et validation, et montrons que la relation entre l'erreur d'action et le nombre d'échantillons générés suit une loi de puissance exponentielle. Sur cette base, nous proposons RoboMonkey, un cadre de mise à l'échelle en temps de test pour VLA. RoboMonkey génère plusieurs échantillons d'actions à partir du VLA, ajoute un bruit gaussien, génère une distribution de propositions d'actions par vote majoritaire, puis sélectionne l'action optimale à l'aide d'un vérificateur basé sur VLM. Nous entraînons un vérificateur d'actions basé sur VLM via un pipeline de génération de données synthétiques, et démontrons l'amélioration des performances du VLA grâce à RoboMonkey par des simulations et des expériences matérielles. Les résultats expérimentaux montrent une amélioration absolue des performances de 25 % sur les tâches hors distribution et de 9 % sur les tâches en distribution, et montrent que le réglage fin du VLA et du vérificateur d'action ensemble améliore les performances de 7 % par rapport au réglage fin du VLA seul lors de l'adaptation à un nouveau réglage du robot.

Takeaways, Limitations_

Takeaways:
Nous présentons RoboMonkey, une technique efficace de mise à l'échelle du temps de test qui améliore la robustesse et les performances de généralisation des modèles VLA.
Obtenez des améliorations de performances sur les tâches hors distribution et en distribution grâce à une approche basée sur l'échantillonnage et la validation.
Démontrer l'utilité de l'apprentissage de vérificateurs d'actions basés sur VLM à l'aide de données synthétiques.
Une méthode de réglage fin simultané du VLA et du vérificateur d'action pour améliorer l'adaptabilité aux nouvelles configurations de robot est présentée.
Limitations:
Les améliorations des performances de RoboMonkey peuvent être limitées à des environnements expérimentaux spécifiques et à des modèles VLA.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation des pipelines de génération de données synthétiques.
Une validation supplémentaire de la robustesse de RoboMonkey dans des environnements réels complexes et divers est nécessaire.
Le coût de calcul des vérificateurs basés sur VLM peut augmenter.
👍