Bài báo này nhấn mạnh rằng mặc dù có những tiến bộ trong các mô hình tạo sinh dựa trên khuếch tán, hoạt hình chân dung vẫn gặp khó khăn trong việc tạo video đồng nhất về mặt thời gian và tốc độ lấy mẫu chậm do lấy mẫu lặp lại. Để đáp ứng nhu cầu này, chúng tôi giới thiệu FLOAT, một phương pháp tạo chân dung tương tác dựa trên âm thanh dựa trên mô hình tạo sinh khớp dòng chảy. Tận dụng không gian tiềm ẩn chuyển động trực giao đã học thay vì không gian tiềm ẩn dựa trên pixel, chúng tôi cho phép tạo hiệu quả và chỉnh sửa chuyển động đồng nhất về mặt thời gian. Điều này đạt được bằng cách giới thiệu một bộ ước lượng trường vectơ dựa trên biến áp và một cơ chế điều kiện hóa từng khung hình hiệu quả, đồng thời chúng tôi hỗ trợ củng cố cảm xúc dựa trên giọng nói để tích hợp các chuyển động biểu cảm tự nhiên. Kết quả thử nghiệm chứng minh rằng phương pháp của chúng tôi vượt trội hơn các phương pháp tạo chân dung tương tác dựa trên âm thanh hiện có về chất lượng hình ảnh, độ trung thực chuyển động và hiệu quả.