Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Created by
  • Haebom

Auteur

Wael Etaiwi, Bushra Alhijawi

Contour

Dans cet article, nous évaluons les performances de ChatGPT et de DeepSeek, deux modèles linguistiques à grande échelle (MLH), sur cinq tâches majeures de traitement du langage naturel (TALN) : analyse des sentiments, classification thématique, résumé de texte, traduction automatique et implication textuelle. Afin de garantir l'équité et de minimiser la variabilité, nous utilisons un protocole expérimental structuré pour tester les deux modèles avec les mêmes invites neutres et les évaluer sur deux jeux de données de référence (actualités, critiques, textes formels/informels, etc.) pour chaque tâche. Nos expériences montrent que DeepSeek surpasse en termes de stabilité de classification et de raisonnement logique, tandis que ChatGPT surpasse dans les tâches exigeant une compréhension fine et de la flexibilité.

Takeaways, Limitations

Takeaways:
Fournit un aperçu du choix du LLM adapté à votre tâche PNL spécifique.
Présentez clairement les forces et les faiblesses de ChatGPT et DeepSeek.
Analyse comparative des performances du LLM sur diverses tâches de PNL.
Souligner l’importance du protocole expérimental (équité et minimisation de la variabilité).
Limitations:
Les LLM évalués se limitent à ChatGPT et DeepSeek. Des recherches sont nécessaires pour inclure des LLM plus diversifiés.
Nombre limité de tâches de PNL évaluées. Nécessité d'évaluer un éventail plus large de tâches de PNL.
Un examen plus approfondi est nécessaire sur la généralisabilité de l’ensemble de données de référence utilisé.
Manque de prise en compte de l’impact de l’ingénierie rapide.
👍