Dans cet article, nous évaluons les performances de ChatGPT et de DeepSeek, deux modèles linguistiques à grande échelle (MLH), sur cinq tâches majeures de traitement du langage naturel (TALN) : analyse des sentiments, classification thématique, résumé de texte, traduction automatique et implication textuelle. Afin de garantir l'équité et de minimiser la variabilité, nous utilisons un protocole expérimental structuré pour tester les deux modèles avec les mêmes invites neutres et les évaluer sur deux jeux de données de référence (actualités, critiques, textes formels/informels, etc.) pour chaque tâche. Nos expériences montrent que DeepSeek surpasse en termes de stabilité de classification et de raisonnement logique, tandis que ChatGPT surpasse dans les tâches exigeant une compréhension fine et de la flexibilité.