Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Franchir le fossé entre les espèces : transférer l'apprentissage de la parole aux sons des animaux

Created by
  • Haebom

Auteur

Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoît Favre

Contour

Cet article étudie les performances d'apprentissage par transfert de modèles d'apprentissage auto-supervisé basés sur la parole (HuBERT, WavLM et XEUS) pour des tâches de détection et de classification bioacoustiques. Nous démontrons leur capacité à générer des représentations latentes riches de sons animaux provenant de divers taxons et analysons les caractéristiques des modèles par sondage linéaire de représentations moyennées dans le temps. De plus, nous étendons l'approche à l'influence de l'information temporelle en utilisant différentes architectures en aval et étudions l'impact de la gamme de fréquences et du bruit sur les performances. Par conséquent, nous démontrons des performances compétitives avec des modèles de pré-apprentissage bioacoustique affinés, démontrant l'impact de paramètres de pré-apprentissage tolérants au bruit. Cela souligne le potentiel de l'apprentissage auto-supervisé basé sur la parole comme cadre efficace pour faire progresser la recherche en bioacoustique.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’un modèle d’apprentissage auto-supervisé peut être appliqué efficacement à l’analyse de données bioacoustiques.
Nous avons confirmé que nous pouvons générer des expressions latentes riches pour divers sons d’animaux.
Suggérant l’importance de paramètres de pré-formation résistants au bruit.
Présenter de nouvelles possibilités pour l’avancement de la recherche bioacoustique.
Limitations:
ÉTant donné que les résultats concernent un modèle et un ensemble de données spécifiques, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité.
Une analyse plus approfondie de Limitations sur la méthode de prise en compte des informations temporelles est nécessaire.
Des recherches plus approfondies sur la gamme de fréquences et les effets du bruit sont nécessaires.
👍