Takeaways: Cette étude a comparé les performances de divers modèles d'apprentissage automatique et d'apprentissage profond (XGBoost, Transformer, LLM) pour la détection multimodale de la dépression. Cette analyse a identifié les forces et les faiblesses de chaque modèle et a fourni des informations sur les stratégies efficaces de représentation multimodale. De plus, elle a suggéré le potentiel d'amélioration des performances de détection de la dépression en exploitant les données de diverses modalités (audio, vidéo, texte).