[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VLMgineer : Les modèles de langage visuel comme outils robotiques

Created by
  • Haebom

Auteur

George Jiayuan Gao, Tianyu Li, Junyao Shi, Yihan Li, Zizhe Zhang, Nadia Figueroa, Dinesh Jayaraman

Contour

Dans cet article, nous présentons VLMgineer, un framework de co-conception itérative d'outils physiques et de leurs plans d'actionnement, exploitant les capacités de génération de code du modèle de langage de vision (VLM) et l'exploration évolutive. VLMgineer est évalué sur une variété de benchmarks inédits de scénarios de manipulation quotidienne nécessitant une conception et une utilisation créatives d'outils. Nous démontrons qu'il permet de découvrir des outils et des politiques plus efficaces et innovants que les outils existants créés par l'homme ou les conceptions génératives VLM dirigées par l'homme, transformant ainsi des problèmes robotiques complexes en exécutions simples. Nous prévoyons de rendre le benchmark et le code accessibles au public pour de futures recherches sur l'invention d'outils automatisés.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode pour améliorer l’intelligence physique des robots en utilisant VLM est présentée.
Fournit une nouvelle référence pour évaluer la créativité, la planification et la prévoyance dans la conception et l’utilisation des outils.
Démontrer le potentiel de conception automatisée d’outils et de politiques efficaces et innovants qui simplifient les tâches robotiques complexes.
Références et divulgation de codes pour la recherche future sur l'invention d'outils automatisés.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des repères présentés.
Les performances de VLMgineer peuvent être biaisées en faveur de certains types de tâches.
L'application et l'évaluation des performances de VLMgineer pour les systèmes robotiques réels sont nécessaires.
Limitations potentielles dans la conception des outils en raison des limitations du VLM.
👍