यह शोधपत्र SpA2V प्रस्तुत करता है, जो ऑडियो-आधारित वीडियो निर्माण के लिए एक नवीन ढाँचा है जो यथार्थवादी और सटीक वीडियो बनाने के लिए स्थानिक श्रवण संकेतों का लाभ उठाता है। मौजूदा विधियों के विपरीत, जो मुख्य रूप से अर्थ संबंधी जानकारी, जैसे कि ऑडियो में ध्वनि का प्रकार, पर केंद्रित हैं, SpA2V स्पष्ट रूप से भौतिक गुणों, जैसे कि प्रबलता और आवृत्ति, से प्राप्त स्थानिक संकेतों का लाभ उठाता है। SpA2V में दो चरण होते हैं: एक ऑडियो-निर्देशित वीडियो नियोजन चरण जो ऑडियो से स्थानिक और अर्थ संबंधी संकेतों का उपयोग करके एक वीडियो दृश्य लेआउट (VSL) बनाता है, और एक लेआउट-आधारित वीडियो निर्माण चरण जो VSL पर एक पूर्व-प्रशिक्षित प्रसार मॉडल को एक शर्त के रूप में उपयोग करके एक वीडियो बनाता है। प्रायोगिक परिणाम दर्शाते हैं कि SpA2V ऐसे यथार्थवादी वीडियो बनाने में उत्कृष्ट है जो इनपुट ऑडियो के साथ अर्थ और स्थानिक रूप से संरेखित होते हैं।