Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Double Entendre : Détection robuste des paroles générées par l'IA et basée sur l'audio via la fusion multi-vues

Created by
  • Haebom

Auteur

Markus Frohmann, Gabriel Meseguer-Brocal, Markus Schedl, Elena V. Epure

Contour

Dans cet article, nous présentons une nouvelle méthode de détection de musique générée par l'IA afin de répondre aux problématiques de droits d'auteur et d'industrie musicale liées au développement des outils de génération musicale basés sur l'IA. Pour pallier les limites des détecteurs audio ou de paroles existants (généralisation et vulnérabilité au bruit des détecteurs audio, manque de données précises sur les paroles), nous proposons un pipeline de post-fusion multimodal et modulaire qui combine des paroles de chansons transcrites automatiquement avec des fonctionnalités vocales capturant les informations relatives aux paroles dans l'audio. Cette méthode exploite directement les aspects lyriques de l'audio pour améliorer la robustesse et atténuer la sensibilité aux artefacts de faible niveau, augmentant ainsi son applicabilité pratique. Les résultats expérimentaux montrent que la méthode DE-detect proposée surpasse les détecteurs de paroles existants et est plus robuste au bruit audio. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Une nouvelle approche multimodale est présentée pour résoudre les problèmes pratiques de détection de musique générée par l'IA.
Développement d'un modèle de détection de musique généré par l'IA, robuste au bruit audio et doté d'excellentes performances de généralisation.
Des résultats expérimentaux montrant des performances améliorées par rapport aux méthodes existantes sont présentés.
Reproductibilité et convivialité accrues grâce au code ouvert.
Limitations:
Les performances de la méthode proposée sont basées sur des résultats expérimentaux sur un ensemble de données spécifique, et une validation supplémentaire des performances de généralisation sur divers genres musicaux et modèles génératifs d'IA peut être nécessaire.
Les performances de détection peuvent être affectées par la précision de la transcription automatique des paroles.
À Mesure que de nouveaux modèles de génération de musique par IA émergent, des mises à jour et un recyclage continus des modèles peuvent être nécessaires.
👍