[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Codage audio spécifique à une tâche pour les machines : les caractéristiques latentes apprises par la machine sont des codes pour cette machine

Created by
  • Haebom

Auteur

Anastasia Kuznetsova, Inseon Jang, Wootaek Lim, Minje Kim

Contour

Dans cet article, nous présentons une nouvelle méthode permettant de compresser et de quantifier efficacement les représentations de caractéristiques intermédiaires de modèles parole/audio pré-entraînés, en nous concentrant sur le codage audio pour machines (ACoM). Contrairement aux codecs audio neuronaux conventionnels axés sur la reconstruction haute fidélité, notre étude vise à minimiser la dégradation des performances des sous-modèles, même à des débits binaires ultra-faibles (< 200 bps), en privilégiant les performances des sous-tâches. En exploitant la perte par quantification vectorielle résiduelle (RVQ) et les conseils de perte spécifiques à chaque tâche, nous construisons un tokenizer applicable à différents débits binaires et tailles de modèles, et démontrons son efficacité pour les tâches de reconnaissance vocale automatique et de classification audio.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode ACoM efficace qui minimise la dégradation des performances des sous-modèles même à des débits binaires ultra-faibles (moins de 200 bps).
Fournit un tokeniseur flexible applicable à différents débits binaires et tailles de modèles.
Efficacité prouvée dans les tâches de reconnaissance automatique de la parole et de classification audio.
Démontre l’applicabilité à une variété de tâches et d’architectures.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Des résultats expérimentaux approfondis sur divers ensembles de données vocales/audio sont nécessaires.
Des recherches supplémentaires sont nécessaires pour atténuer les dépendances à des tâches et des architectures spécifiques.
👍