Este artículo destaca las limitaciones de la arquitectura de "múltiples entradas, salidas únicas" (MISO) empleada por los modelos preentrenados a gran escala existentes, como ChatGPT y OpenVLA. Esta arquitectura provoca la exclusión mutua de tareas en tareas de "múltiples entradas, salidas múltiples" (MIMO) (p. ej., procesamiento de salida multitarea en paralelo), lo que genera competencia por recursos entre múltiples tareas al compartir canales de salida, lo que resulta en desequilibrios de optimización y degradación del rendimiento. Por el contrario, los humanos pueden ejecutar tareas simultáneamente sin interferencias mediante el procesamiento MIMO (p. ej., conversación y toma de decisiones concurrentes). Inspirados por esto, proponemos el Modelo de Acción del Lenguaje Visual para Chat y Toma de Decisiones Simultáneas (VLASCD, o MIMO-VLA), un modelo integrado entrenado en MIMO con salidas multitarea paralelas, capaz de conversar y tomar decisiones simultáneamente. Los resultados experimentales en la plataforma de conducción autónoma CARLA demuestran que MIMO-VLA supera significativamente a los modelos LLM con capacidades de conversación MISO, los modelos de aprendizaje de refuerzo y los modelos VLA con capacidades de decisión MISO en el procesamiento simultáneo de tareas de conversación y toma de decisiones en escenarios MIMO.