Cet article examine les tendances récentes de la recherche sur l'utilisation de modèles Vision-Langage-Action (VLA) pré-entraînés afin d'améliorer leur capacité de généralisation. Nous soulignons que les VLM existants présentent des limites : ils se concentrent sur des informations sémantiques de grande dimension et ne sont pas capables de comprendre les informations spatiales de faible dimension et les actions physiques, facteurs importants pour les tâches de contrôle d'implémentation. Pour pallier ces limites, nous proposons UP-VLA, une méthode intégrée d'entraînement de modèles VLA qui intègre à la fois la compréhension multimodale et les objectifs de prédiction future. UP-VLA améliore à la fois la compréhension sémantique de haute dimension et la compréhension spatiale de faible dimension, et affiche des performances 33 % supérieures à celles des modèles de pointe précédents sur le benchmark Calvin ABC-D, et améliore particulièrement le taux de réussite dans les tâches de manipulation réelles nécessitant des informations spatiales précises.