Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉTude du rapport signal/distorsion invariant d'échelle dans la séparation de la parole avec des références bruyantes

Created by
  • Haebom

Auteur

Simon Dahl Jepsen, Mads Gr{\ae}sb{\o}ll Christensen, Jesper Rindom Jensen

Contour

Cet article étudie l'impact de l'utilisation du rapport signal/distorsion invariant à l'échelle (SI-SDR) comme mesure d'évaluation et objectif d'apprentissage en séparation vocale supervisée, avec des données de référence d'apprentissage bruyantes, telles que WSJ0-2Mix. La dérivation du SI-SDR à partir de données de référence bruyantes révèle que le bruit limite le SI-SDR atteignable ou introduit du bruit indésirable dans la sortie séparée. Pour résoudre ce problème, nous proposons une méthode permettant d'améliorer les données de référence à l'aide de WHAM! et d'augmenter les données mixtes pour entraîner des modèles évitant l'apprentissage à partir de données de référence bruyantes. Deux modèles entraînés sur l'ensemble de données amélioré sont évalués à l'aide de la mesure non invasive NISQA.v2. Les résultats démontrent une réduction du bruit dans la parole séparée, mais suggèrent que les artefacts introduits lors du traitement des données de référence peuvent limiter l'amélioration globale de la qualité. Une corrélation négative entre le SI-SDR et le bruit perçu a été constatée sur les ensembles de tests WSJ0-2Mix et Libri2Mix, corroborant les résultats de la dérivation.

Takeaways, Limitations

Takeaways: Nous présentons les défis rencontrés lors de l'utilisation de la SI-SDR comme objectif d'apprentissage avec des données de référence bruyantes, ainsi que l'efficacité des techniques d'amélioration et d'augmentation des données de référence pour y remédier. Nous avons confirmé expérimentalement une corrélation négative entre la SI-SDR et le bruit perçu.
Limitations : Des artefacts peuvent être introduits lors du traitement des données de référence, limitant ainsi l'amélioration globale de la qualité sonore. Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est efficace pour tous les types de bruit.
👍