Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VLASCD: Un modelo de acción del lenguaje visual para charlar y tomar decisiones simultáneamente

Created by
  • Haebom

Autor

Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu

Describir

Este artículo destaca las limitaciones de la arquitectura de "múltiples entradas, salidas únicas" (MISO) empleada por los modelos preentrenados a gran escala existentes, como ChatGPT y OpenVLA. Esta arquitectura provoca la exclusión mutua de tareas en tareas de "múltiples entradas, salidas múltiples" (MIMO) (p. ej., procesamiento de salida multitarea en paralelo), lo que genera competencia por recursos entre múltiples tareas al compartir canales de salida, lo que resulta en desequilibrios de optimización y degradación del rendimiento. Por el contrario, los humanos pueden ejecutar tareas simultáneamente sin interferencias mediante el procesamiento MIMO (p. ej., conversación y toma de decisiones concurrentes). Inspirados por esto, proponemos el Modelo de Acción del Lenguaje Visual para Chat y Toma de Decisiones Simultáneas (VLASCD, o MIMO-VLA), un modelo integrado entrenado en MIMO con salidas multitarea paralelas, capaz de conversar y tomar decisiones simultáneamente. Los resultados experimentales en la plataforma de conducción autónoma CARLA demuestran que MIMO-VLA supera significativamente a los modelos LLM con capacidades de conversación MISO, los modelos de aprendizaje de refuerzo y los modelos VLA con capacidades de decisión MISO en el procesamiento simultáneo de tareas de conversación y toma de decisiones en escenarios MIMO.

Takeaways, Limitations

Takeaways:
Presentamos la utilidad de la estructura MIMO que supera las limitaciones de la estructura MISO.
Proponemos un nuevo modelo, VLASCD (MIMO-VLA), que es eficaz para realizar tareas complejas como conversación y toma de decisiones simultáneas.
Verificamos experimentalmente el rendimiento superior de MIMO-VLA en aplicaciones de conducción autónoma.
Limitations:
Se necesita más investigación para evaluar el rendimiento de generalización del modelo propuesto.
Estos resultados experimentales se limitan a la plataforma CARLA y el rendimiento en otros entornos requiere mayor validación.
Falta análisis de la complejidad del modelo y del coste computacional.
👍