[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VITA: Política de correspondencia entre el flujo de visión y acción

Created by
  • Haebom

Autor

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

Describir

VITA es una política de correspondencia de flujos visión-acción que realiza control visomotor transformando representaciones visuales latentes en acciones latentes. Las políticas de correspondencia y difusión de flujo existentes se basan en distribuciones de fuentes estándar, como el ruido gaussiano, y requieren mecanismos de condicionamiento adicionales, como la atención cruzada, para condicionar la generación de acciones a partir de la información visual, lo que genera sobrecargas temporales y espaciales. VITA presenta un paradigma novedoso que trata las imágenes latentes como fuentes de flujo, eliminando módulos de condicionamiento independientes y aprendiendo una correspondencia única entre la visión y la acción, manteniendo al mismo tiempo las capacidades de modelado generativo. El aprendizaje de flujos entre modalidades fundamentalmente diferentes, como la visión y la acción, resulta complejo debido a la escasez de datos de acción, que carecen de estructura semántica y presentan desajustes dimensionales entre las representaciones visuales de alta dimensión y las acciones sin procesar. Para solucionar esto, generamos un espacio latente de acción estructurado como objetivo de correspondencia de flujo mediante un autocodificador y sobremuestreamos las acciones sin procesar para que coincidan con la forma de la representación visual. Es importante destacar que supervisamos la coincidencia de flujo utilizando tanto el objetivo del codificador como la salida de la acción final mediante la decodificación latente de flujo, y retropropagamos la pérdida de reconstrucción de la acción mediante un paso secuencial de resolución de EDO de coincidencia de flujo para un aprendizaje integral eficaz. Implementado como una capa MLP simple, VITA se evalúa en tareas bimanuales complejas, incluyendo cinco simuladas y dos reales en la plataforma ALOHA. A pesar de su simplicidad, VITA, solo con MLP, supera o iguala a las políticas generativas de vanguardia, a la vez que reduce la latencia de inferencia entre un 50 % y un 130 % con respecto a las políticas de coincidencia de flujo existentes. Hasta donde sabemos, VITA es la primera política de coincidencia de flujo solo con MLP capaz de resolver tareas bimanuales complejas, como la prueba de referencia ALOHA.

Takeaways, Limitations

Takeaways:
Proponemos un nuevo método de correspondencia de flujo que asigna directamente la información visual latente a las acciones latentes, eliminando así los mecanismos de condicionamiento adicionales y las estructuras complejas de los métodos existentes y mejorando la eficiencia.
Al realizar con éxito tareas complejas de manipulación bimanual utilizando únicamente MLP, demostramos la simplicidad y eficacia de nuestro modelo.
Logramos una mejora del 50-130% en la velocidad de inferencia en comparación con las políticas generativas de última generación existentes.
Limitations:
Dado que se evaluó solo para tareas específicas en la plataforma ALOHA, el rendimiento de generalización a otras tareas o plataformas requiere más estudios.
Es necesario considerar la pérdida de información que puede ocurrir al generar un espacio latente estructurado utilizando un autocodificador.
Debido a su estructura simple que utiliza solo MLP, su capacidad de generalización a tareas más complejas y diversas puede ser limitada.
👍