Este artículo revela que la memorización en modelos generativos va más allá de la simple reproducción literal, abarcando patrones metafóricos, asociaciones semánticas y, sorprendentemente, diversas modalidades (p. ej., generación de letra a música, generación de texto a vídeo). En concreto, descubrimos un nuevo tipo de memorización intermodal, en la que el contenido protegido por derechos de autor se filtra a través de canales de habla indirecta, y proponemos la Incitación de Voz Adversarial (APT) como método para abordarla. La APT reemplaza frases icónicas con alternativas fonéticamente similares, pero semánticamente diferentes (p. ej., "espaguetis de mamá" por "confeti de Bob"), preservando su forma acústica y alterando significativamente su contenido semántico. Los resultados experimentales demuestran que se puede inducir a los modelos a reproducir canciones memorizadas utilizando letras fonológicamente similares, pero semánticamente no relacionadas. A pesar del cambio semántico, los modelos de caja negra como SUNO y los modelos de código abierto como YuE producen resultados notablemente similares (en cuanto a melodía, ritmo y voz) a la canción original, alcanzando altas puntuaciones en AudioJudge, CLAP y CoverID. Estos efectos persisten en todos los géneros e idiomas. Más sorprendente aún, descubrimos que la memorización visual puede inducirse en un modelo de texto a vídeo utilizando únicamente indicaciones de audio. Al presentar la letra alterada de "Lose Yourself", Veo 3 generó escenas que reflejaban el vídeo musical original (incluyendo al rapero con una sudadera y un fondo urbano oscuro), pero sin pistas visuales explícitas en las indicaciones. Esta fuga intermodal representa una amenaza sin precedentes, que anula las salvaguardas existentes, como los filtros de derechos de autor. Este estudio demuestra una vulnerabilidad fundamental en los modelos generativos basados en la transcripción y plantea serias preocupaciones sobre los derechos de autor, la procedencia y la distribución segura de los sistemas generativos multimodales.