Cet article met en évidence les limites de l'architecture « entrées multiples, sortie unique » (MISO) utilisée par les modèles pré-entraînés à grande échelle existants, tels que ChatGPT et OpenVLA. Cette architecture provoque une exclusion mutuelle des tâches dans les tâches « entrées multiples, sortie multiple » (MIMO) (par exemple, le traitement de sortie multitâche parallèle), ce qui entraîne une concurrence des ressources entre plusieurs tâches lors du partage des canaux de sortie, ce qui entraîne des déséquilibres d'optimisation et une dégradation des performances. En revanche, les humains peuvent exécuter simultanément des tâches sans interférence grâce au traitement MIMO (par exemple, la conversation et la prise de décision simultanées). Inspirés par cela, nous proposons le modèle d'action en langage visuel pour la conversation et la prise de décision simultanées (VLASCD, ou MIMO-VLA), un modèle intégré formé par MIMO avec des sorties multitâches parallèles permettant la conversation et la prise de décision simultanées. Les résultats expérimentaux sur la plateforme de conduite autonome CARLA démontrent que MIMO-VLA surpasse considérablement les modèles LLM avec des capacités de conversation MISO, les modèles d'apprentissage par renforcement et les modèles VLA avec des capacités de décision MISO dans le traitement simultané des tâches de conversation et de prise de décision dans les scénarios MIMO.