VITA là một chính sách khớp dòng thị giác-hành động thực hiện điều khiển thị giác vận động bằng cách chuyển đổi các biểu diễn thị giác tiềm ẩn thành các hành động tiềm ẩn. Các chính sách khớp dòng và khuếch tán hiện có lấy mẫu từ các phân phối nguồn chuẩn như nhiễu Gauss và yêu cầu các cơ chế điều kiện bổ sung như chú ý chéo đến việc tạo ra hành động có điều kiện trên thông tin thị giác, gây ra chi phí không gian và thời gian. VITA trình bày một mô hình mới xử lý các hình ảnh tiềm ẩn như các nguồn dòng chảy, loại bỏ các mô-đun điều kiện riêng biệt và học cách ánh xạ duy nhất từ thị giác sang hành động trong khi vẫn duy trì khả năng mô hình hóa sinh. Việc học các dòng chảy giữa các phương thức cơ bản khác nhau như thị giác và hành động là một thách thức do dữ liệu hành động thưa thớt thiếu cấu trúc ngữ nghĩa và có sự không khớp về chiều giữa các biểu diễn thị giác có chiều cao và hành động thô. Để giải quyết vấn đề này, chúng tôi tạo ra một không gian tiềm ẩn hành động có cấu trúc làm mục tiêu khớp dòng thông qua một bộ mã hóa tự động và nâng cấp các hành động thô để khớp với hình thức của biểu diễn thị giác. Điều quan trọng là chúng tôi giám sát việc khớp luồng bằng cả mục tiêu bộ mã hóa và đầu ra hành động cuối cùng thông qua giải mã tiềm ẩn luồng, và lan truyền ngược lại tổn thất tái tạo hành động thông qua bước giải ODE khớp luồng tuần tự để học tập đầu cuối hiệu quả. Được triển khai như một lớp MLP đơn giản, VITA được đánh giá trên các tác vụ song thủ công phức tạp, bao gồm năm tác vụ mô phỏng và hai tác vụ thực tế trên nền tảng ALOHA. Mặc dù đơn giản, VITA chỉ MLP vượt trội hoặc ngang bằng với các chính sách sinh sản tiên tiến, đồng thời giảm độ trễ suy luận từ 50-130% so với các chính sách khớp luồng hiện có. Theo hiểu biết của chúng tôi, VITA là chính sách khớp luồng chỉ MLP đầu tiên có thể giải quyết các tác vụ song thủ công phức tạp như chuẩn ALOHA.