Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mamba2 rencontre le silence : séparation robuste des sources vocales pour les régions clairsemées

Created by
  • Haebom

Auteur

Euiyeon Kim, Yong-Hoon Choi

Contour

Cet article présente un nouveau modèle de séparation de sources spécialisé dans la séparation vocale précise. Pour surmonter la difficulté des modèles basés sur Transformer existants à capturer les voix intermittentes, nous utilisons Mamba2, un modèle d'espace d'état de pointe qui capture mieux les dépendances temporelles à long terme. Pour traiter efficacement les longues séquences d'entrée, nous combinons une stratégie de séparation de bande avec une architecture à double chemin. Les résultats expérimentaux démontrent que le modèle proposé surpasse les modèles de pointe actuels, atteignant un cSDR (meilleur de sa catégorie) de 11,03 dB et démontrant des améliorations significatives des performances, même à uSDR. De plus, il affiche des performances stables et constantes sur une large gamme de longueurs d'entrée et de schémas d'occurrence vocale. Ces résultats démontrent l'efficacité du modèle basé sur Mamba pour le traitement audio haute résolution et ouvrent de nouvelles perspectives pour des applications plus larges en recherche audio.

Takeaways, Limitations

Takeaways:
En exploitant un modèle basé sur Mamba2, nous surmontons les limitations des modèles existants basés sur Transformer et améliorons considérablement les performances de séparation vocale (un cSDR de 11,03 dB).
Nous proposons une méthode pour traiter efficacement de longues séquences d'entrée en utilisant une stratégie de division de bande et une architecture à double chemin.
Ses performances stables sur une large gamme de longueurs d’entrée et de modèles d’occurrence vocale améliorent son potentiel pour des applications pratiques.
Nous démontrons l’utilité des modèles basés sur Mamba dans le traitement audio haute résolution.
Limitations:
Cet article ne fournit pas d’explication détaillée de la mise en œuvre spécifique du modèle Mamba2 ou du réglage des hyperparamètres.
Les évaluations de performance pour d’autres types de séparation de sources sonores (par exemple, la séparation d’instruments) n’ont pas été présentées.
Une analyse plus approfondie des performances de généralisation sur des ensembles de données autres que des ensembles de données musicales du monde réel est nécessaire.
👍