यह शोधपत्र एक कॉन्फ़ॉर्मर-आधारित एनकोडर को प्रशिक्षित करने की एक विधि प्रस्तुत करता है जो स्व-पर्यवेक्षित कंट्रास्टिव लर्निंग फ्रेमवर्क का उपयोग करके छोटे ऑडियो खंडों के लिए अद्वितीय एम्बेडिंग उत्पन्न करता है। स्थानीय और वैश्विक अंतःक्रियाओं को कैप्चर करने की कॉन्फ़ॉर्मर की क्षमता का लाभ उठाकर, हम केवल 3 सेकंड के ऑडियो से एम्बेडिंग उत्पन्न करते हुए, ऑडियो पुनर्प्राप्ति कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं। इसके अलावा, हम इस अत्याधुनिक प्रदर्शन को बनाए रखते हुए, समय संबंधी विसंगति और अन्य ऑडियो कलाकृतियों, जैसे शोर, प्रतिध्वनि, और अत्यधिक समय विस्तार से लगभग मुक्त रहते हैं। हम अपने मॉडल को विभिन्न आकारों के सार्वजनिक रूप से उपलब्ध डेटासेट पर प्रशिक्षित और परीक्षण करते हैं, और अपने परिणामों की पुनरुत्पादन क्षमता सुनिश्चित करने के लिए कोड और मॉडल को सार्वजनिक रूप से उपलब्ध भी कराते हैं।