Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AudioCodecBench : un benchmark complet pour l'évaluation des codecs audio

Created by
  • Haebom

Auteur

Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang

Contour

Cet article souligne l'importance de la tokenisation de la parole et de la musique dans les modèles linguistiques multimodaux à grande échelle (MLLM) et souligne les lacunes des recherches existantes. Il souligne que les recherches actuelles manquent de définitions adéquates des tokens sémantiques et acoustiques, et que les évaluations des codecs sont biaisées en faveur de domaines ou de tâches spécifiques (par exemple, la reconstruction ou la reconnaissance vocale automatique), ce qui rend difficiles les comparaisons justes et exhaustives. Par conséquent, cet article propose des définitions appropriées des tokens sémantiques et acoustiques, ainsi qu'un cadre d'évaluation systématique pour évaluer les performances des codecs selon quatre dimensions : les métriques de reconstruction acoustique, la stabilité de l'indice du livre de codes, la perplexité du transformateur spécifique au décodeur et les performances des sous-tâches. Les résultats expérimentaux démontrent la validité des définitions proposées et les corrélations entre les métriques de reconstruction, la stabilité de l'identifiant du livre de codes, les performances des sous-tâches et la perplexité.

Takeaways, Limitations

Takeaways:
A contribué à la recherche sur la tokenisation phonétique et musicale dans MLLM en fournissant des définitions claires des tokens sémantiques et acoustiques.
ÉTablir une base pour une comparaison et une évaluation complètes des performances des codecs grâce à un cadre d’évaluation multidimensionnel.
Fournit des informations sur la conception et l'optimisation des codecs en identifiant les corrélations entre les mesures de reconstruction, la stabilité de l'ID du livre de codes, les performances des sous-tâches et la perplexité.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la polyvalence du cadre d’évaluation proposé et sa généralisabilité à divers ensembles de données vocales et musicales.
Il existe une possibilité de biais dans l’évaluation en raison des limites du type et du nombre de sous-tâches utilisées dans l’évaluation.
Il n’est pas exclu qu’il y ait un biais en faveur de certains codecs ou modèles.
👍