दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑडियो फ़िंगरप्रिंटिंग और पुनर्प्राप्ति के लिए पूर्व-प्रशिक्षित कन्फ़ॉर्मर्स

Created by
  • Haebom

लेखक

केमल अल्ट्वल्कनी, एल्मेडिन सेल्मानोविक, सीड डेलालिक

रूपरेखा

यह शोधपत्र एक कॉन्फ़ॉर्मर-आधारित एनकोडर को प्रशिक्षित करने की एक विधि प्रस्तुत करता है जो स्व-पर्यवेक्षित कंट्रास्टिव लर्निंग फ्रेमवर्क का उपयोग करके छोटे ऑडियो खंडों के लिए अद्वितीय एम्बेडिंग उत्पन्न करता है। स्थानीय और वैश्विक अंतःक्रियाओं को कैप्चर करने की कॉन्फ़ॉर्मर की क्षमता का लाभ उठाकर, हम केवल 3 सेकंड के ऑडियो से एम्बेडिंग उत्पन्न करते हुए, ऑडियो पुनर्प्राप्ति कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं। इसके अलावा, हम इस अत्याधुनिक प्रदर्शन को बनाए रखते हुए, समय संबंधी विसंगति और अन्य ऑडियो कलाकृतियों, जैसे शोर, प्रतिध्वनि, और अत्यधिक समय विस्तार से लगभग मुक्त रहते हैं। हम अपने मॉडल को विभिन्न आकारों के सार्वजनिक रूप से उपलब्ध डेटासेट पर प्रशिक्षित और परीक्षण करते हैं, और अपने परिणामों की पुनरुत्पादन क्षमता सुनिश्चित करने के लिए कोड और मॉडल को सार्वजनिक रूप से उपलब्ध भी कराते हैं।

Takeaways, Limitations

Takeaways:
केवल 3 सेकंड के ऑडियो से प्रभावी एम्बेडिंग बनाई जा सकती है।
समय संरेखण त्रुटियों और विभिन्न ऑडियो विकृतियों के प्रति मजबूत
ऑडियो खोज कार्यों में अत्याधुनिक प्रदर्शन प्राप्त करना
खुले कोड और मॉडल प्रकटीकरण के माध्यम से परिणामों की पुनरुत्पादन क्षमता सुनिश्चित करना
Limitations:
सार में Limitations का कोई विशिष्ट संदर्भ स्पष्ट रूप से नहीं दिया गया है। आगे विश्लेषण आवश्यक है।
👍