Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Détection de chansons générée par l'IA via les transcriptions des paroles

Created by
  • Haebom

Auteur

Markus Frohmann, Elena V. Epure, Gabriel Meseguer-Brocal, Markus Schedl, Romain Hennequin

Contour

Cet article s'appuie sur le besoin croissant de méthodes précises pour détecter la musique générée par l'IA, en raison des progrès des outils de génération musicale basés sur l'IA. Nous soulignons que les méthodes de détection audio existantes peinent à être généralisées aux nouveaux générateurs ou aux sons bruyants, et que les méthodes utilisant des données de paroles précises et bien formées présentent également des limites dans leurs applications pratiques. Par conséquent, cette étude propose une nouvelle méthode pour détecter la musique générée par l'IA en convertissant les chansons en parole à l'aide d'un modèle général de reconnaissance automatique de la parole (RAS), puis en utilisant plusieurs détecteurs. Les résultats expérimentaux sur des paroles de différents genres et langues montrent que les modèles utilisant les intégrations Whisper large-v2 et LLM2Vec sont performants et plus robustes au bruit audio et à divers générateurs de musique que les méthodes audio existantes. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons l’efficacité d’une méthode de détection de musique générée par l’IA utilisant la transcription de paroles basée sur l’ASR.
Nous démontrons expérimentalement qu'il est plus robuste au bruit et à divers générateurs que les méthodes audio existantes.
Nous avons évalué les performances de détection de musique multilingue et multigenre afin d’améliorer la praticité.
La reproductibilité et la convivialité ont été améliorées grâce au code ouvert.
Limitations:
Les performances de détection peuvent être affectées par la précision du modèle ASR.
Les performances de généralisation des nouveaux modèles de génération de musique IA nécessitent des recherches supplémentaires.
Il peut y avoir un biais envers certains genres ou certaines langues.
👍