Dans cet article, nous évaluons les performances de ChatGPT et DeepSeek, deux modèles linguistiques à grande échelle (MLH) pour le traitement du langage naturel (TALN), sur cinq tâches principales : l'analyse des sentiments, la classification thématique, la synthèse de texte, la traduction automatique et l'implicite textuelle. Nous utilisons un protocole expérimental structuré pour garantir l'équité et minimiser la variabilité en évaluant les deux modèles sur deux jeux de données de référence par tâche, utilisant les mêmes invites neutres. Nos expériences montrent que DeepSeek surpasse en termes de stabilité de classification et de raisonnement logique, tandis que ChatGPT surpasse dans les tâches exigeant une compréhension fine et de la flexibilité. Ces résultats fournissent des informations précieuses pour sélectionner le LLM approprié en fonction des exigences de la tâche.