[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Repensando la brecha corpórea en la navegación visual y lingüística: un estudio holístico de las disparidades físicas y visuales

Created by
  • Haebom

Autor

Liuyi Wang, Xinyuan Xia, Hui Zhao, Hanqing Wang, Tai Wang, Yilun Chen, Chengju Liu, Qijun Chen, Jiangmiao Pang

Describir

En este artículo, proponemos VLN-PE, una plataforma de VLN físicamente realista. Esta plataforma señala que, a pesar de los avances en el campo de la navegación visual-lenguaje (VLN), se basa en suposiciones idealistas que no reflejan las dificultades de la implementación real de robots. VLN-PE admite robots humanoides, cuadrúpedos y con ruedas, y evalúa sistemáticamente diversos métodos en entornos robóticos reales, incluyendo un modelo de clasificación para la predicción de movimiento discreto de un solo paso, un modelo de difusión para la predicción densa de puntos de referencia y un modelo de lenguaje a gran escala (LLM) supervisado que puede utilizarse sin entrenamiento e integrado con la planificación de rutas. Los resultados experimentales muestran que el rendimiento se degrada debido a dificultades físicas como el espacio de visión limitado del robot, los cambios en la iluminación ambiental, las colisiones y las caídas, y que, en particular, los robots con patas presentan limitaciones de movimiento en entornos complejos. VLN-PE es extensible para integrar sin problemas nuevas escenas más allá de MP3D y permite una evaluación de VLN más completa. A pesar del bajo rendimiento de generalización de los modelos actuales en entornos de implementación reales, VLN-PE proporciona un método novedoso para mejorar la adaptabilidad a diversas morfologías de robots.

Takeaways, Limitations

Takeaways:
Analizar sistemáticamente las causas de la degradación del rendimiento del modelo VLN en un entorno de robot real y presentar claramente sus limitaciones.
La plataforma VLN-PE permite la evaluación de varias plataformas de robots y metodologías VLN en entornos del mundo real.
Sugiere la necesidad de desarrollar un modelo VLN más robusto y práctico que tenga en cuenta las dificultades de los entornos reales, como el espacio de observación limitado, los cambios de iluminación y las colisiones físicas.
Presentamos una nueva dirección de investigación para aumentar la adaptabilidad a diversas formas de robots.
Limitations:
Los tipos de entornos y robots que se utilizan actualmente en la evaluación pueden ser limitados.
Se necesita una mayor validación de la escalabilidad y el rendimiento de generalización de la propia plataforma VLN-PE.
Falta de soluciones específicas para mejorar el rendimiento de generalización en entornos reales.
👍