यह शोधपत्र इस बात पर प्रकाश डालता है कि प्रसार-आधारित जनरेटिव मॉडलों में प्रगति के बावजूद, पोर्ट्रेट एनीमेशन अभी भी समयानुकूल वीडियो निर्माण और दोहरावदार सैंपलिंग के कारण धीमी सैंपलिंग दरों से जूझ रहा है। इसके जवाब में, हम FLOAT प्रस्तुत करते हैं, जो एक ऑडियो-आधारित इंटरैक्टिव पोर्ट्रेट निर्माण विधि है जो एक प्रवाह-मिलान जनरेटिव मॉडल पर आधारित है। पिक्सेल-आधारित अव्यक्त स्थान के बजाय एक सीखे हुए ऑर्थोगोनल मोशन अव्यक्त स्थान का लाभ उठाकर, हम कुशल निर्माण और समयानुकूल मोशन संपादन को सक्षम बनाते हैं। यह एक ट्रांसफॉर्मर-आधारित वेक्टर फ़ील्ड अनुमानक और एक प्रभावी फ़्रेम-दर-फ़्रेम कंडीशनिंग तंत्र को लागू करके प्राप्त किया जाता है, और हम प्राकृतिक अभिव्यंजक आंदोलनों को एकीकृत करने के लिए वाक्-आधारित भावनात्मक सुदृढीकरण का समर्थन करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि दृश्य गुणवत्ता, गति निष्ठा और दक्षता के मामले में हमारी विधि मौजूदा ऑडियो-आधारित इंटरैक्टिव पोर्ट्रेट विधियों से बेहतर प्रदर्शन करती है।