Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Casper : Déduction d'intentions diverses pour la téléopération assistée avec des modèles de langage visuel

Created by
  • Haebom

Auteur

Huihan Liu, Rutav Shah, Shuijing Liu, Jack Pittenger, Mingyo Seo, Yuchen Cui, Yonatan Bisk, Roberto Mart in-Mart in, Yuke Zhu

Contour

Dans cet article, nous présentons Casper, un système d'assistance à la téléopération permettant une collaboration homme-robot efficace et intuitive dans des environnements variés et non structurés. Casper effectue une inférence d'intention en temps réel et une exécution flexible des compétences en exploitant les connaissances de bon sens intégrées dans des modèles de langage visuel (MLV) pré-entraînés. Il intègre un module de perception du monde ouvert pour la compréhension générale d'objets et de scènes nouveaux, un mécanisme d'inférence d'intention basé sur les MVV qui exploite le raisonnement de bon sens pour interpréter des portions de saisie utilisateur, et une bibliothèque de techniques qui étendent le champ d'application des systèmes d'assistance à la téléopération existants pour prendre en charge des tâches de manipulation mobile diverses et à long terme. Grâce à des évaluations empiriques approfondies, incluant des études humaines et l'agrégation de systèmes, nous démontrons que Casper améliore les performances des tâches, réduit la charge cognitive et procure une satisfaction utilisateur supérieure à la téléopération directe et à la téléopération assistée de base.

Takeaways, Limitations

Takeaways:
Nous présentons un système de téléopération d'assistance capable d'inférer des intentions en temps réel et d'exécuter des compétences flexibles en exploitant des VLM pré-entraînés.
Le module de perception du monde ouvert permet une compréhension générale de divers objets et scènes.
Prise en charge de tâches d'exploitation mobiles diverses et à long terme.
Effets confirmés d’amélioration des performances des tâches, de réduction de la charge cognitive et d’augmentation de la satisfaction des utilisateurs.
Limitations:
En raison de la forte dépendance à l’égard des connaissances de bon sens des VLM, les limitations des VLM peuvent affecter les performances du système.
Il est possible que cela ne reflète pas parfaitement la complexité et la diversité du monde réel.
Des recherches supplémentaires sont nécessaires pour garantir la sécurité et la fiabilité du système.
Besoin de vérifier les performances de généralisation pour des situations ou des tâches spécifiques.
👍