Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De l'alignement à l'avancement : amorcer l'alignement audio-langage avec des données synthétiques

Created by
  • Haebom

Auteur

Chun-Yi Kuan, Hung-Yi Lee

Contour

Dans cet article, nous proposons BALSa, un framework de génération de données synthétiques utilisant le LLM de base, pour résoudre le problème du modèle de langage à grande échelle (ALLM) de reconnaissance audio. La méthode d'apprentissage ALLM actuelle présente des inconvénients : oublis catastrophiques et problèmes d'hallucinations, et nécessite une grande quantité de données. BALSa résout ces problèmes en générant des données par apprentissage contrastif grâce au LLM de base. Plus particulièrement, cette étude améliore la correspondance audio-langue en permettant des explications différentielles ou intégrées pour plusieurs entrées audio. Les résultats expérimentaux montrent que BALSa atténue les hallucinations audio et maintient d'excellentes performances aux tests de compréhension et d'inférence audio, tout en préservant la capacité à suivre les instructions.

Takeaways, Limitations

Takeaways:
Nous démontrons que le problème d'hallucination audio et le problème d'oubli catastrophique de l'ALLM peuvent être efficacement atténués en générant des données synthétiques à l'aide du LLM principal.
Capacités de traitement améliorées pour plusieurs entrées audio afin d'améliorer la correspondance audio-langage et les capacités de compréhension et d'inférence du modèle.
Nous présentons une approche efficace et évolutive pour résoudre les problèmes gourmands en ressources des méthodes d’apprentissage ALLM existantes.
Limitations:
Les performances du BALSa proposé pourraient être limitées à certains benchmarks. Une évaluation complémentaire des performances de généralisation sur différents types de données et de tâches audio est nécessaire.
Cela peut dépendre des performances du LLM principal. La qualité du LLM principal peut affecter les performances de BALSa.
La qualité des données synthétiques peut limiter les performances du modèle en raison de différences avec les données réelles. Des recherches supplémentaires sont nécessaires pour minimiser ces différences.
👍