VITA est une stratégie de correspondance de flux vision-action qui assure le contrôle visuomoteur en transformant les représentations visuelles latentes en actions latentes. Les stratégies de correspondance de flux et de diffusion existantes utilisent des distributions de sources standard, telles que le bruit gaussien, et nécessitent des mécanismes de conditionnement supplémentaires, comme l'attention croisée, pour conditionner la génération d'actions sur les informations visuelles, ce qui entraîne des surcharges temporelles et spatiales. VITA présente un nouveau paradigme qui traite les images latentes comme des sources de flux, éliminant ainsi les modules de conditionnement distincts et apprenant une correspondance unique entre la vision et l'action, tout en conservant les capacités de modélisation générative. L'apprentissage des flux entre des modalités fondamentalement différentes, telles que la vision et l'action, est complexe en raison de la rareté des données d'action, dépourvues de structure sémantique et présentant des discordances dimensionnelles entre les représentations visuelles de grande dimension et les actions brutes. Pour résoudre ce problème, nous générons un espace latent d'action structuré comme cible de correspondance de flux via un auto-encodeur et suréchantillonnons les actions brutes pour qu'elles correspondent à la forme de la représentation visuelle. Il est important de noter que nous supervisons la correspondance de flux en utilisant à la fois la cible de l'encodeur et la sortie de l'action finale via un décodage latent de flux, et rétropropageons la perte de reconstruction de l'action via une étape de résolution d'EDO séquentielle de correspondance de flux pour un apprentissage de bout en bout efficace. Implémentée comme une simple couche MLP, VITA est évaluée sur des tâches bimanuelles complexes, dont cinq tâches simulées et deux tâches réelles sur la plateforme ALOHA. Malgré sa simplicité, VITA, exclusivement MLP, surpasse ou égale les politiques génératives de pointe, tout en réduisant la latence d'inférence de 50 à 130 % par rapport aux politiques de correspondance de flux existantes. À notre connaissance, VITA est la première politique de correspondance de flux exclusivement MLP capable de résoudre des tâches bimanuelles complexes telles que le benchmark ALOHA.