यह पत्र पिछले ऑडियो-विजुअल स्थानीयकरण (एवीएल) अध्ययनों की कमियों को इंगित करता है, अर्थात्, लौकिक गतिशीलता की उपेक्षा और परिदृश्य सेटिंग्स को सरल बनाना, और एक नया वीडियो-केंद्रित एवीएल बेंचमार्क, अवतार प्रस्तावित करता है, जो उन्हें संबोधित करने के लिए उच्च-रिज़ॉल्यूशन लौकिक जानकारी को शामिल करता है। अवतार को चार परिदृश्यों को कवर करके एवीएल मॉडल के अधिक व्यापक मूल्यांकन को सक्षम करने के लिए डिज़ाइन किया गया है: एकल ध्वनि, मिश्रित ध्वनियां, कई ऑब्जेक्ट्स, और ऑफ-स्क्रीन। इसके अलावा, हम TAVLO प्रस्तुत करते हैं, जो एक नया वीडियो-केंद्रित AVL मॉडल है जो स्पष्ट रूप से लौकिक जानकारी को शामिल करता है। प्रायोगिक परिणाम बताते हैं कि TAVLO उच्च-रिज़ॉल्यूशन लौकिक मॉडलिंग का लाभ उठाकर मजबूत और सटीक ऑडियो-विजुअल संरेखण प्राप्त करता है