Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VLASCD : un modèle d'action en langage visuel pour la conversation et la prise de décision simultanées

Created by
  • Haebom

Auteur

Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu

Contour

Cet article met en évidence les limites de l'architecture « entrées multiples, sortie unique » (MISO) utilisée par les modèles pré-entraînés à grande échelle existants, tels que ChatGPT et OpenVLA. Cette architecture provoque une exclusion mutuelle des tâches dans les tâches « entrées multiples, sortie multiple » (MIMO) (par exemple, le traitement de sortie multitâche parallèle), ce qui entraîne une concurrence des ressources entre plusieurs tâches lors du partage des canaux de sortie, ce qui entraîne des déséquilibres d'optimisation et une dégradation des performances. En revanche, les humains peuvent exécuter simultanément des tâches sans interférence grâce au traitement MIMO (par exemple, la conversation et la prise de décision simultanées). Inspirés par cela, nous proposons le modèle d'action en langage visuel pour la conversation et la prise de décision simultanées (VLASCD, ou MIMO-VLA), un modèle intégré formé par MIMO avec des sorties multitâches parallèles permettant la conversation et la prise de décision simultanées. Les résultats expérimentaux sur la plateforme de conduite autonome CARLA démontrent que MIMO-VLA surpasse considérablement les modèles LLM avec des capacités de conversation MISO, les modèles d'apprentissage par renforcement et les modèles VLA avec des capacités de décision MISO dans le traitement simultané des tâches de conversation et de prise de décision dans les scénarios MIMO.

Takeaways, Limitations

Takeaways:
Nous présentons l’utilité de la structure MIMO qui surmonte les limitations de la structure MISO.
Nous proposons un nouveau modèle, VLASCD (MIMO-VLA), qui est efficace pour effectuer des tâches complexes telles que la conversation simultanée et la prise de décision.
Nous vérifions expérimentalement les performances supérieures du MIMO-VLA dans les applications de conduite autonome.
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation du modèle proposé.
Ces résultats expérimentaux sont limités à la plateforme CARLA et les performances dans d’autres environnements nécessitent une validation supplémentaire.
Il y a un manque d’analyse de la complexité du modèle et du coût de calcul.
👍