본 논문은 ChatGPT와 OpenVLA와 같은 기존의 대규모 사전 훈련 모델들이 채택하는 "다중 입력, 단일 출력"(MISO) 구조의 한계를 지적합니다. MISO 구조는 "다중 입력, 다중 출력"(MIMO) 작업(예: 병렬 다중 작업 출력 처리)에서 작업 상호 배타 효과를 발생시켜 출력 채널을 공유할 때 여러 작업 간의 자원 경쟁을 야기하고, 최적화 불균형 및 성능 저하로 이어집니다. 반면 인간은 MIMO 처리를 통해 (예: 대화와 의사결정 동시 수행) 상호 간섭 없이 동시 작업 실행이 가능합니다. 이에 영감을 받아, 본 논문에서는 동시 대화 및 의사결정이 가능한 병렬 다중 작업 출력 기능을 갖춘 통합 MIMO 훈련 모델인 Visual Language Action Model for Simultaneously Chatting and Decision Making (VLASCD, 또는 MIMO-VLA)을 제안합니다. CARLA 자율 주행 플랫폼에서의 실험 결과, MIMO-VLA는 MISO 대화 기능을 갖춘 LLM 모델, 강화 학습 모델, MISO 의사결정 기능을 갖춘 VLA 모델에 비해 MIMO 시나리오 내에서 대화 생성 및 의사결정 작업을 동시에 처리하는 데 있어 훨씬 우수한 성능을 보임을 보여줍니다.