VITA es una política de correspondencia de flujos visión-acción que realiza control visomotor transformando representaciones visuales latentes en acciones latentes. Las políticas de correspondencia y difusión de flujo existentes se basan en distribuciones de fuentes estándar, como el ruido gaussiano, y requieren mecanismos de condicionamiento adicionales, como la atención cruzada, para condicionar la generación de acciones a partir de la información visual, lo que genera sobrecargas temporales y espaciales. VITA presenta un paradigma novedoso que trata las imágenes latentes como fuentes de flujo, eliminando módulos de condicionamiento independientes y aprendiendo una correspondencia única entre la visión y la acción, manteniendo al mismo tiempo las capacidades de modelado generativo. El aprendizaje de flujos entre modalidades fundamentalmente diferentes, como la visión y la acción, resulta complejo debido a la escasez de datos de acción, que carecen de estructura semántica y presentan desajustes dimensionales entre las representaciones visuales de alta dimensión y las acciones sin procesar. Para solucionar esto, generamos un espacio latente de acción estructurado como objetivo de correspondencia de flujo mediante un autocodificador y sobremuestreamos las acciones sin procesar para que coincidan con la forma de la representación visual. Es importante destacar que supervisamos la coincidencia de flujo utilizando tanto el objetivo del codificador como la salida de la acción final mediante la decodificación latente de flujo, y retropropagamos la pérdida de reconstrucción de la acción mediante un paso secuencial de resolución de EDO de coincidencia de flujo para un aprendizaje integral eficaz. Implementado como una capa MLP simple, VITA se evalúa en tareas bimanuales complejas, incluyendo cinco simuladas y dos reales en la plataforma ALOHA. A pesar de su simplicidad, VITA, solo con MLP, supera o iguala a las políticas generativas de vanguardia, a la vez que reduce la latencia de inferencia entre un 50 % y un 130 % con respecto a las políticas de coincidencia de flujo existentes. Hasta donde sabemos, VITA es la primera política de coincidencia de flujo solo con MLP capaz de resolver tareas bimanuales complejas, como la prueba de referencia ALOHA.