Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoiler des descriptions multi-images pour la détection multilingue des troubles cognitifs légers via l'apprentissage contrastif

Created by
  • Haebom

Auteur

Kristin Qi, Jiali Cheng, Youxiang Zhu, Hadi Amiri, Xiaohui Liang

Contour

Cet article aborde les défis de la détection des troubles cognitifs légers (TCL) par le biais de descriptions d'images dans des environnements multilingues et multi-images. Alors que les recherches précédentes se concentraient principalement sur les descriptions d'images uniques pour les anglophones, cet article propose un cadre basé sur le défi TAUKDIAL-2024, qui inclut des utilisateurs multilingues et des images multiples. Ce cadre comprend trois volets : l'amélioration de l'apprentissage discriminatif des représentations par l'apprentissage contrastif supervisé, l'exploitation de la modalité image et l'atténuation des corrélations parasites et du surapprentissage par une stratégie de Produit d'Experts (PoE). Le cadre proposé démontre une amélioration de 7,1 % du Rappel Moyen Non Pondéré (RMO) (de 68,1 % à 75,2 %) et de 2,9 % du score F1 (de 80,6 % à 83,5 %) par rapport à une base de référence unimodale de texte. La composante d'apprentissage contrastif, en particulier, produit des améliorations plus importantes pour le texte que pour la parole.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui contribue à améliorer les performances de détection MCI dans des environnements multilingues et multi-images.
Démontrer empiriquement l'efficacité de l'apprentissage contrastif supervisé, de l'utilisation des modalités d'image et des stratégies PoE.
Souligne l’importance de l’apprentissage contrastif dans les modalités textuelles.
Limitations:
Dépendance à l'ensemble de données du défi TAUKDIAL-2024. La généralisabilité à d'autres ensembles de données doit être vérifiée.
Manque d’analyse approfondie des interactions entre chaque composante du cadre proposé.
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité et la généralisabilité dans des contextes cliniques réels.
👍