Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SDBench : une suite complète de benchmarks pour la diarisation des locuteurs

Created by
  • Haebom

Auteur

Eduardo Pacheco, Atila Orhon, Berkin Durmus, Blaise Munyampirwa, Andrey Leonov

Contour

SDBench est une suite de benchmarks open source conçue pour pallier la forte variabilité des taux d'erreur des systèmes de séparation des locuteurs de pointe sur plusieurs jeux de données représentant divers cas d'utilisation et domaines. Elle intègre 13 jeux de données différents et fournit des outils d'analyse cohérente et granulaire des performances de séparation des locuteurs, permettant des évaluations reproductibles et une intégration aisée de nouveaux systèmes. Pour démontrer l'efficacité de SDBench, nous avons développé SpeakerKit, un système axé sur l'efficacité de l'inférence basé sur Pyannote v3. Nous évaluons les performances de SpeakerKit avec SDBench et démontrons qu'il est 9,6 fois plus rapide que Pyannote v3, tout en obtenant un taux d'erreur similaire. Nous avons également évalué six systèmes de pointe, dont Deepgram, AWS Transcribe et l'API Pyannote AI, afin de mettre en évidence le compromis crucial entre précision et rapidité.

Takeaways, Limitations

Takeaways:
Offrant un ensemble de données diversifié et des outils d'évaluation cohérents, SDBench fournit une référence standardisée pour comparer les performances des systèmes de séparation des haut-parleurs.
SDBench vous permet d'effectuer des expériences efficaces (par exemple, des études d'ablation) pour le développement du système et l'amélioration des performances.
En clarifiant le compromis entre précision et vitesse, il fournit des informations importantes pour la conception et la sélection du système.
Contribuer au développement de systèmes de séparation de haut-parleurs efficaces et précis tels que SpeakerKit.
Limitations:
Le nombre et la variété des ensembles de données actuellement inclus peuvent être encore élargis.
Des outils et des directives supplémentaires peuvent être nécessaires pour intégrer de nouveaux systèmes.
Il peut être biaisé en faveur de certains domaines ou cas d’utilisation.
Le nombre de systèmes inclus dans le benchmark peut être limité.
👍