दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फ़्लोट: ऑडियो-संचालित टॉकिंग पोर्ट्रेट के लिए जनरेटिव मोशन लेटेंट फ्लो मैचिंग

Created by
  • Haebom

लेखक

ताइक्युंग की, डोंगचान मिन, ग्योंगसु चाए

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि प्रसार-आधारित जनरेटिव मॉडलों में प्रगति के बावजूद, पोर्ट्रेट एनीमेशन अभी भी समयानुकूल वीडियो निर्माण और दोहरावदार सैंपलिंग के कारण धीमी सैंपलिंग दरों से जूझ रहा है। इसके जवाब में, हम FLOAT प्रस्तुत करते हैं, जो एक ऑडियो-आधारित इंटरैक्टिव पोर्ट्रेट निर्माण विधि है जो एक प्रवाह-मिलान जनरेटिव मॉडल पर आधारित है। पिक्सेल-आधारित अव्यक्त स्थान के बजाय एक सीखे हुए ऑर्थोगोनल मोशन अव्यक्त स्थान का लाभ उठाकर, हम कुशल निर्माण और समयानुकूल मोशन संपादन को सक्षम बनाते हैं। यह एक ट्रांसफॉर्मर-आधारित वेक्टर फ़ील्ड अनुमानक और एक प्रभावी फ़्रेम-दर-फ़्रेम कंडीशनिंग तंत्र को लागू करके प्राप्त किया जाता है, और हम प्राकृतिक अभिव्यंजक आंदोलनों को एकीकृत करने के लिए वाक्-आधारित भावनात्मक सुदृढीकरण का समर्थन करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि दृश्य गुणवत्ता, गति निष्ठा और दक्षता के मामले में हमारी विधि मौजूदा ऑडियो-आधारित इंटरैक्टिव पोर्ट्रेट विधियों से बेहतर प्रदर्शन करती है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि प्रवाह-मिलान जनरेटिव मॉडल और ऑर्थोगोनल मोशन लेटेंट स्पेस का लाभ उठाकर कुशल और समयबद्ध रूप से सुसंगत ऑडियो-आधारित इंटरैक्टिव पोर्ट्रेट वीडियो निर्माण संभव है।
ट्रांसफार्मर-आधारित वेक्टर फील्ड अनुमानक और फ्रेम-दर-फ्रेम कंडीशनिंग तंत्र के माध्यम से उच्च गुणवत्ता वाली छवि निर्माण संभव है।
आवाज आधारित भावना संवर्धन के साथ अधिक प्राकृतिक और अभिव्यंजक वीडियो बनाएं।
मौजूदा तरीकों की तुलना में दृश्य गुणवत्ता, गति निष्ठा और दक्षता में सुधार।
Limitations:
इस पेपर में Limitations या भविष्य के अनुसंधान निर्देशों के विशिष्ट संदर्भों का अभाव है।
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन और विभिन्न स्थितियों (जैसे, रोशनी में परिवर्तन, पृष्ठभूमि में परिवर्तन) के प्रति मजबूती का आगे मूल्यांकन आवश्यक है।
उपयोग किये गये डेटासेट और सीखने की प्रक्रिया के विस्तृत विवरण का अभाव।
👍