Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réseau multimodal de fusion dynamique pour la détection du bien-être de la parole

Created by
  • Haebom

Auteur

Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen

Contour

Cet article propose un système léger, multibranches et multimodal intégrant les informations vocales et textuelles pour prédire le risque de suicide chez les adolescents. Contrairement aux études précédentes qui s'appuyaient uniquement sur des formes d'onde temporelles, notre système exploite à la fois des caractéristiques acoustiques temporelles et temporelles fréquentielles, ainsi que des représentations sémantiques. De plus, nous introduisons un bloc de fusion dynamique qui ajuste dynamiquement la contribution de chaque modalité, intégrant de manière adaptative les informations issues de diverses modalités. Nous simplifions les modèles existants pour améliorer l'efficacité de calcul, et les résultats expérimentaux montrent une réduction de 78 % des paramètres du modèle et une amélioration de 5 % de la précision par rapport aux systèmes existants. Cette recherche a été menée sur la base du défi de détection SpeechWellness.

Takeaways, Limitations

Takeaways:
Suggérant la possibilité d’améliorer les performances de prédiction du risque de suicide chez les jeunes grâce à la fusion multimodale des informations vocales et textuelles.
Amélioration de la précision de l'analyse acoustique en exploitant les informations du domaine temps-fréquence.
Modulation efficace des contributions spécifiques aux modalités grâce à des mécanismes de fusion dynamique.
Efficacité de calcul accrue grâce à une structure de modèle légère.
Limitations:
Cette étude est limitée à l’ensemble de données de défi de détection SpeechWellness, une vérification supplémentaire de la généralisabilité est donc nécessaire.
Manque de généralisation de l’évaluation des performances à travers diverses populations.
L’analyse comparative avec d’autres techniques de fusion multimodale est limitée.
Manque de discussion sur les implications éthiques de la prédiction du risque de suicide.
👍