Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Bob's Confetti: Ataques de memorización fonética en la generación de música y vídeo

Created by
  • Haebom

Autor

Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Houmansadr

Describir

Este artículo revela que la memorización en modelos generativos va más allá de la simple reproducción literal, abarcando patrones metafóricos, asociaciones semánticas y, sorprendentemente, diversas modalidades (p. ej., generación de letra a música, generación de texto a vídeo). En concreto, descubrimos un nuevo tipo de memorización intermodal, en la que el contenido protegido por derechos de autor se filtra a través de canales de habla indirecta, y proponemos la Incitación de Voz Adversarial (APT) como método para abordarla. La APT reemplaza frases icónicas con alternativas fonéticamente similares, pero semánticamente diferentes (p. ej., "espaguetis de mamá" por "confeti de Bob"), preservando su forma acústica y alterando significativamente su contenido semántico. Los resultados experimentales demuestran que se puede inducir a los modelos a reproducir canciones memorizadas utilizando letras fonológicamente similares, pero semánticamente no relacionadas. A pesar del cambio semántico, los modelos de caja negra como SUNO y los modelos de código abierto como YuE producen resultados notablemente similares (en cuanto a melodía, ritmo y voz) a la canción original, alcanzando altas puntuaciones en AudioJudge, CLAP y CoverID. Estos efectos persisten en todos los géneros e idiomas. Más sorprendente aún, descubrimos que la memorización visual puede inducirse en un modelo de texto a vídeo utilizando únicamente indicaciones de audio. Al presentar la letra alterada de "Lose Yourself", Veo 3 generó escenas que reflejaban el vídeo musical original (incluyendo al rapero con una sudadera y un fondo urbano oscuro), pero sin pistas visuales explícitas en las indicaciones. Esta fuga intermodal representa una amenaza sin precedentes, que anula las salvaguardas existentes, como los filtros de derechos de autor. Este estudio demuestra una vulnerabilidad fundamental en los modelos generativos basados en la transcripción y plantea serias preocupaciones sobre los derechos de autor, la procedencia y la distribución segura de los sistemas generativos multimodales.

Takeaways, Limitations

Takeaways:
Revela que el fenómeno de memorización de modelos generativos aparece de diversas maneras más allá de la reproducción literal.
La memorización entre modalidades plantea una nueva amenaza a la fuga de contenido protegido por derechos de autor.
Demuestra el potencial para desactivar medidas de seguridad existentes, como los filtros de derechos de autor.
Se plantea la necesidad de desarrollar nuevas medidas de seguridad para el despliegue seguro de sistemas de generación multimodal.
Demuestra la posibilidad de ataques adversarios mediante indicaciones de voz.
Limitations:
Se necesita más investigación sobre la generalización de los ataques APT y otros modelos/conjuntos de datos.
Se necesita más investigación sobre técnicas de defensa contra el ataque APT propuesto.
Se requiere una amplia experimentación con varios modelos generativos y conjuntos de datos.
Se necesitan más investigaciones para determinar su relevancia para casos reales de infracción de derechos de autor.
👍