[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser l'écart incarné dans la navigation visuelle et langagière : une étude holistique des disparités physiques et visuelles

Created by
  • Haebom

Auteur

Liuyi Wang, Xinyuan Xia, Hui Zhao, Hanqing Wang, Tai Wang, Yilun Chen, Chengju Liu, Qijun Chen, Jiangmiao Pang

Contour

Dans cet article, nous proposons VLN-PE, une plateforme VLN physiquement réaliste. Malgré les avancées dans le domaine de la navigation en langage visuel (VLN), elle repose sur des hypothèses idéalistes qui ne reflètent pas les difficultés du déploiement réel de robots. VLN-PE prend en charge les robots humanoïdes, quadrupèdes et à roues, et évalue systématiquement diverses méthodes dans des environnements robotiques réels, notamment un modèle de classification pour la prédiction de mouvements discrets en une seule étape, un modèle de diffusion pour la prédiction de points de cheminement denses et un modèle de langage à grande échelle supervisé (LLM) utilisable sans formation et intégré à la planification de trajectoire. Les résultats expérimentaux montrent que la dégradation des performances est due à des difficultés physiques telles qu'un espace de visualisation limité du robot, des variations d'éclairage ambiant, des collisions et des chutes. De plus, les robots à pattes, en particulier, ont des contraintes de mouvement dans des environnements complexes. VLN-PE est extensible pour intégrer de manière transparente de nouvelles scènes au-delà de MP3D et permet une évaluation VLN plus complète. Malgré les faibles performances de généralisation des modèles actuels dans les environnements de déploiement réels, VLN-PE fournit une nouvelle méthode pour améliorer l'adaptabilité à diverses morphologies de robots.

Takeaways, Limitations

Takeaways:
Analyser systématiquement les causes de dégradation des performances du modèle VLN dans un environnement robotique réel et présenter clairement ses limites.
La plateforme VLN-PE permet d'évaluer diverses plateformes robotiques et méthodologies VLN dans des environnements réels.
Suggère la nécessité de développer un modèle VLN plus robuste et plus pratique qui prend en compte les difficultés des environnements réels, tels que l'espace d'observation limité, les changements d'éclairage et les collisions physiques.
Présentation d'une nouvelle direction de recherche pour augmenter l'adaptabilité à diverses formes de robots.
Limitations:
Les types d’environnements et de robots actuellement utilisés dans l’évaluation peuvent être limités.
Une validation supplémentaire de l’évolutivité et des performances de généralisation de la plateforme VLN-PE elle-même est nécessaire.
Manque de solutions spécifiques pour améliorer les performances de généralisation dans des environnements réels.
👍