यह शोधपत्र बताता है कि जनरेटिव मॉडलों में स्मरण-शक्ति केवल शाब्दिक पुनरुत्पादन से आगे बढ़कर, रूपकात्मक पैटर्न, अर्थ-संबंधी संगति, और आश्चर्यजनक रूप से, विभिन्न तौर-तरीकों (जैसे, गीत-से-संगीत निर्माण, पाठ-से-वीडियो निर्माण) को भी शामिल करती है। विशेष रूप से, हम एक नए प्रकार के क्रॉस-मोडल स्मरण-शक्ति का पता लगाते हैं, जहाँ कॉपीराइट की गई सामग्री अप्रत्यक्ष वाक् चैनलों के माध्यम से लीक हो जाती है, और इस पर प्रहार करने के एक तरीके के रूप में एडवर्सरीयल वॉयस प्रॉम्प्टिंग (APT) का प्रस्ताव करते हैं। APT, प्रतिष्ठित वाक्यांशों को ध्वन्यात्मक रूप से समान लेकिन अर्थ-संबंधी रूप से भिन्न विकल्पों (जैसे, "माँ की स्पेगेटी" से "बॉब की कंफ़ेटी") से बदल देता है, उनके ध्वनिक रूप को संरक्षित करते हुए उनकी अर्थ-संबंधी सामग्री में महत्वपूर्ण परिवर्तन करता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि मॉडलों को ध्वन्यात्मक रूप से समान लेकिन अर्थ-संबंधी रूप से असंबंधित गीतों का उपयोग करके याद किए गए गीतों को पुनरुत्पादित करने के लिए प्रेरित किया जा सकता है। अर्थगत बदलाव के बावजूद, SUNO जैसे ब्लैक-बॉक्स मॉडल और YuE जैसे ओपन-सोर्स मॉडल मूल गीत के उल्लेखनीय रूप से समान (राग, लय और स्वर के संदर्भ में) आउटपुट उत्पन्न करते हैं, जिससे AudioJudge, CLAP और CoverID पर उच्च अंक प्राप्त होते हैं। ये प्रभाव विभिन्न शैलियों और भाषाओं में बने रहते हैं। इससे भी अधिक आश्चर्यजनक बात यह है कि हमने पाया कि केवल ऑडियो संकेतों का उपयोग करके टेक्स्ट-टू-वीडियो मॉडल में दृश्य स्मरण को प्रेरित किया जा सकता है। "लूज़ योरसेल्फ" के परिवर्तित बोल प्रस्तुत किए जाने पर, Veo 3 ने ऐसे दृश्य उत्पन्न किए जो मूल संगीत वीडियो (जिसमें हुडी पहने रैपर और एक अंधेरी शहरी पृष्ठभूमि शामिल है) की तरह थे, लेकिन संकेतों में स्पष्ट दृश्य संकेत नहीं थे। यह क्रॉस-मोडैलिटी लीकेज एक अभूतपूर्व खतरा पैदा करता है, जो कॉपीराइट फ़िल्टर जैसे मौजूदा सुरक्षा उपायों को विफल करता है। यह अध्ययन ट्रांसक्रिप्शन-आधारित जनरेटिव मॉडल में एक बुनियादी भेद्यता को प्रदर्शित करता है और कॉपीराइट, उद्गम और मल्टीमॉडल जनरेटिव सिस्टम के सुरक्षित वितरण के बारे में तत्काल चिंताएँ उठाता है।