दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बॉब की कंफ़ेटी: संगीत और वीडियो निर्माण में ध्वन्यात्मक स्मरण के हमले

Created by
  • Haebom

लेखक

जेचुल रोह, ज़ाचरी नोवाक, युएफ़ेंग पेंग, निलोफ़र मिरेशगल्लाह, टेलर बर्ग-किर्कपैट्रिक, अमीर होउमनसद्र

रूपरेखा

यह शोधपत्र बताता है कि जनरेटिव मॉडलों में स्मरण-शक्ति केवल शाब्दिक पुनरुत्पादन से आगे बढ़कर, रूपकात्मक पैटर्न, अर्थ-संबंधी संगति, और आश्चर्यजनक रूप से, विभिन्न तौर-तरीकों (जैसे, गीत-से-संगीत निर्माण, पाठ-से-वीडियो निर्माण) को भी शामिल करती है। विशेष रूप से, हम एक नए प्रकार के क्रॉस-मोडल स्मरण-शक्ति का पता लगाते हैं, जहाँ कॉपीराइट की गई सामग्री अप्रत्यक्ष वाक् चैनलों के माध्यम से लीक हो जाती है, और इस पर प्रहार करने के एक तरीके के रूप में एडवर्सरीयल वॉयस प्रॉम्प्टिंग (APT) का प्रस्ताव करते हैं। APT, प्रतिष्ठित वाक्यांशों को ध्वन्यात्मक रूप से समान लेकिन अर्थ-संबंधी रूप से भिन्न विकल्पों (जैसे, "माँ की स्पेगेटी" से "बॉब की कंफ़ेटी") से बदल देता है, उनके ध्वनिक रूप को संरक्षित करते हुए उनकी अर्थ-संबंधी सामग्री में महत्वपूर्ण परिवर्तन करता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि मॉडलों को ध्वन्यात्मक रूप से समान लेकिन अर्थ-संबंधी रूप से असंबंधित गीतों का उपयोग करके याद किए गए गीतों को पुनरुत्पादित करने के लिए प्रेरित किया जा सकता है। अर्थगत बदलाव के बावजूद, SUNO जैसे ब्लैक-बॉक्स मॉडल और YuE जैसे ओपन-सोर्स मॉडल मूल गीत के उल्लेखनीय रूप से समान (राग, लय और स्वर के संदर्भ में) आउटपुट उत्पन्न करते हैं, जिससे AudioJudge, CLAP और CoverID पर उच्च अंक प्राप्त होते हैं। ये प्रभाव विभिन्न शैलियों और भाषाओं में बने रहते हैं। इससे भी अधिक आश्चर्यजनक बात यह है कि हमने पाया कि केवल ऑडियो संकेतों का उपयोग करके टेक्स्ट-टू-वीडियो मॉडल में दृश्य स्मरण को प्रेरित किया जा सकता है। "लूज़ योरसेल्फ" के परिवर्तित बोल प्रस्तुत किए जाने पर, Veo 3 ने ऐसे दृश्य उत्पन्न किए जो मूल संगीत वीडियो (जिसमें हुडी पहने रैपर और एक अंधेरी शहरी पृष्ठभूमि शामिल है) की तरह थे, लेकिन संकेतों में स्पष्ट दृश्य संकेत नहीं थे। यह क्रॉस-मोडैलिटी लीकेज एक अभूतपूर्व खतरा पैदा करता है, जो कॉपीराइट फ़िल्टर जैसे मौजूदा सुरक्षा उपायों को विफल करता है। यह अध्ययन ट्रांसक्रिप्शन-आधारित जनरेटिव मॉडल में एक बुनियादी भेद्यता को प्रदर्शित करता है और कॉपीराइट, उद्गम और मल्टीमॉडल जनरेटिव सिस्टम के सुरक्षित वितरण के बारे में तत्काल चिंताएँ उठाता है।

Takeaways, Limitations

Takeaways:
इससे पता चलता है कि जनरेटिव मॉडल की स्मरणीयता की घटना शाब्दिक पुनरुत्पादन से परे विभिन्न तरीकों से प्रकट होती है।
क्रॉस-मोडैलिटी मेमोराइजेशन कॉपीराइट सामग्री के रिसाव के लिए एक नया खतरा बन गया है।
कॉपीराइट फ़िल्टर जैसे मौजूदा सुरक्षा उपायों को अक्षम करने की क्षमता प्रदर्शित करता है।
मल्टीमॉडल उत्पादन प्रणालियों की सुरक्षित तैनाती के लिए नए सुरक्षा उपाय विकसित करने की आवश्यकता जताई गई है।
ध्वनि संकेतों का उपयोग करके प्रतिकूल हमलों की संभावना को प्रदर्शित करता है।
Limitations:
एपीटी हमलों और अन्य मॉडलों/डेटासेटों की सामान्यता पर आगे अनुसंधान की आवश्यकता है।
प्रस्तावित एपीटी हमले के विरुद्ध रक्षा तकनीकों पर और अधिक शोध की आवश्यकता है।
विभिन्न जनरेटिव मॉडल और डेटासेट के साथ व्यापक प्रयोग की आवश्यकता है।
वास्तविक विश्व के कॉपीराइट उल्लंघन मामलों में इसकी प्रासंगिकता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
👍