Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ManipBench : Analyse comparative des modèles vision-langage pour la manipulation robotique de bas niveau

Created by
  • Haebom

Auteur

Enyu Zhao, Vedant Raval, Hejia Zhang, Jiageng Mao, Zeyu Shangguan, Stefanos Nikolaidis, Yue Wang, Daniel Seita

Contour

Cet article propose ManipBench, un nouveau benchmark pour l'évaluation du raisonnement de bas niveau en manipulation robotique. Si les modèles vision-langage (VLM) sont principalement utilisés comme planificateurs de haut niveau en manipulation robotique, des recherches sur leur raisonnement de bas niveau (détermination d'actions robotiques précises) ont également été menées récemment. ManipBench évalue les capacités de raisonnement de bas niveau des VLM en manipulation robotique sous divers aspects, notamment l'interaction d'objet à objet et la manipulation d'objets déformables. Trente-trois VLM représentatifs de dix familles de modèles sont testés de manière approfondie sur ce benchmark, analysant les différences de performances des modèles et leurs corrélations avec des tâches de manipulation réelles. Cette analyse révèle un écart important entre les modèles actuels et la compréhension humaine.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau benchmark (ManipBench) qui évalue de manière exhaustive les capacités de raisonnement de manipulation robotique de bas niveau des VLM.
Nous comparons et analysons les performances de divers VLM et présentons des corrélations avec des tâches réelles.
Cela montre clairement la différence entre le niveau technologique actuel des VLM et le niveau humain.
Limitations:
ÉTant donné que ManipBench est encore un benchmark à un stade précoce, davantage de modèles et de tâches devront être ajoutés à l'avenir.
Un examen plus approfondi et une amélioration de la conception de référence et des mesures d’évaluation pourraient être nécessaires.
Une évaluation plus approfondie est nécessaire pour les tâches de manipulation robotique plus complexes qui dépassent le cadre des références actuelles.
👍