Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les confettis de Bob : attaques de mémorisation phonétique dans la création musicale et vidéo

Created by
  • Haebom

Auteur

Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Houmansadr

Contour

Cet article révèle que la mémorisation dans les modèles génératifs s'étend au-delà de la simple reproduction littérale, englobant des schémas métaphoriques, des associations sémantiques et, étonnamment, des modalités diverses (par exemple, la conversion de paroles en musique ou de texte en vidéo). Plus précisément, nous découvrons un nouveau type de mémorisation intermodale, où le contenu protégé par le droit d'auteur fuit par des canaux de parole indirecte, et proposons l'incitation vocale contradictoire (APT) comme moyen de l'attaquer. L'APT remplace des phrases emblématiques par des alternatives phonétiquement similaires mais sémantiquement différentes (par exemple, « les spaghettis de maman » par « les confettis de Bob »), préservant ainsi leur forme acoustique tout en modifiant significativement leur contenu sémantique. Les résultats expérimentaux démontrent que les modèles peuvent être amenés à reproduire des chansons mémorisées en utilisant des paroles phonologiquement similaires mais sémantiquement sans rapport. Malgré ce décalage sémantique, les modèles boîte noire comme SUNO et les modèles open source comme YuE produisent un résultat remarquablement similaire (en termes de mélodie, de rythme et de chant) à la chanson originale, obtenant des scores élevés sur AudioJudge, CLAP et CoverID. Ces effets persistent quel que soit le genre et la langue. Plus surprenant encore, nous avons constaté que la mémorisation visuelle peut être induite dans un modèle texte-vidéo utilisant uniquement des invites audio. Face aux paroles modifiées de « Lose Yourself », Veo 3 a généré des scènes reflétant le clip original (avec le rappeur en sweat à capuche et un arrière-plan urbain sombre), mais sans indices visuels explicites dans les invites. Cette fuite intermodale représente une menace sans précédent, mettant en échec les protections existantes telles que les filtres de droits d'auteur. Cette étude démontre une vulnérabilité fondamentale des modèles génératifs basés sur la transcription et soulève des préoccupations urgentes concernant les droits d'auteur, la provenance et la distribution sécurisée des systèmes génératifs multimodaux.

Takeaways, Limitations

Takeaways:
Il révèle que le phénomène de mémorisation des modèles génératifs apparaît de diverses manières au-delà de la reproduction littérale.
La mémorisation intermodale représente une nouvelle menace pour la fuite de contenu protégé par le droit d’auteur.
Démontre le potentiel de désactiver les mesures de sécurité existantes telles que les filtres de droits d'auteur.
La nécessité de développer de nouvelles mesures de sécurité pour le déploiement sûr des systèmes de production multimodaux est soulevée.
Démontre la possibilité d’attaques adverses à l’aide d’invites vocales.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralisabilité des attaques APT et d’autres modèles/ensembles de données.
Des recherches supplémentaires sont nécessaires sur les techniques de défense contre l’attaque APT proposée.
Une expérimentation approfondie avec divers modèles génératifs et ensembles de données est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer sa pertinence dans les cas réels de violation du droit d’auteur.
👍