Cet article révèle que la mémorisation dans les modèles génératifs s'étend au-delà de la simple reproduction littérale, englobant des schémas métaphoriques, des associations sémantiques et, étonnamment, des modalités diverses (par exemple, la conversion de paroles en musique ou de texte en vidéo). Plus précisément, nous découvrons un nouveau type de mémorisation intermodale, où le contenu protégé par le droit d'auteur fuit par des canaux de parole indirecte, et proposons l'incitation vocale contradictoire (APT) comme moyen de l'attaquer. L'APT remplace des phrases emblématiques par des alternatives phonétiquement similaires mais sémantiquement différentes (par exemple, « les spaghettis de maman » par « les confettis de Bob »), préservant ainsi leur forme acoustique tout en modifiant significativement leur contenu sémantique. Les résultats expérimentaux démontrent que les modèles peuvent être amenés à reproduire des chansons mémorisées en utilisant des paroles phonologiquement similaires mais sémantiquement sans rapport. Malgré ce décalage sémantique, les modèles boîte noire comme SUNO et les modèles open source comme YuE produisent un résultat remarquablement similaire (en termes de mélodie, de rythme et de chant) à la chanson originale, obtenant des scores élevés sur AudioJudge, CLAP et CoverID. Ces effets persistent quel que soit le genre et la langue. Plus surprenant encore, nous avons constaté que la mémorisation visuelle peut être induite dans un modèle texte-vidéo utilisant uniquement des invites audio. Face aux paroles modifiées de « Lose Yourself », Veo 3 a généré des scènes reflétant le clip original (avec le rappeur en sweat à capuche et un arrière-plan urbain sombre), mais sans indices visuels explicites dans les invites. Cette fuite intermodale représente une menace sans précédent, mettant en échec les protections existantes telles que les filtres de droits d'auteur. Cette étude démontre une vulnérabilité fondamentale des modèles génératifs basés sur la transcription et soulève des préoccupations urgentes concernant les droits d'auteur, la provenance et la distribution sécurisée des systèmes génératifs multimodaux.