Cette étude vise à améliorer la précision du diagnostic de la dépression et du trouble de stress post-traumatique (TSPT) à l'aide de modèles linguistiques à grande échelle (MLE). Nous avons évalué les performances de ces modèles, notamment Gemini 1.5 Pro et GPT-4o mini, sur l'ensemble de données E-DAIC en utilisant deux modalités : texte et audio. Plus précisément, nous avons analysé l'impact de l'intégration des modalités sur la précision diagnostique à l'aide de nouvelles mesures : le score de supériorité modale et le score de résolution des désaccords. Ainsi, le modèle Gemini 1.5 Pro a obtenu un score F1 de 0,67 et une précision équilibrée de 77,4 % pour la classification binaire de la dépression en combinant les modalités texte et audio, démontrant ainsi une amélioration des performances par rapport à l'utilisation d'une seule modalité. Ce résultat a été obtenu grâce à l'inférence zéro-shot. De plus, nous avons analysé l'évolution des performances entre différentes tâches (binaire, gravité et classification multi-classes) et les variations des invites.