Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Created by
  • Haebom

Auteur

Wael Etaiwi, Bushra Alhijawi

Contour

Dans cet article, nous évaluons les performances de ChatGPT et DeepSeek, deux modèles linguistiques à grande échelle (MLH) pour le traitement du langage naturel (TALN), sur cinq tâches principales : l'analyse des sentiments, la classification thématique, la synthèse de texte, la traduction automatique et l'implicite textuelle. Nous utilisons un protocole expérimental structuré pour garantir l'équité et minimiser la variabilité en évaluant les deux modèles sur deux jeux de données de référence par tâche, utilisant les mêmes invites neutres. Nos expériences montrent que DeepSeek surpasse en termes de stabilité de classification et de raisonnement logique, tandis que ChatGPT surpasse dans les tâches exigeant une compréhension fine et de la flexibilité. Ces résultats fournissent des informations précieuses pour sélectionner le LLM approprié en fonction des exigences de la tâche.

Takeaways, Limitations

Takeaways:
Fournit des conseils pour choisir le bon LLM pour une tâche PNL spécifique.
Clarifie les forces et les faiblesses de ChatGPT et DeepSeek.
Analyser comparativement les performances du LLM sur diverses tâches de PNL pour améliorer la compréhension de ses applications pratiques.
Donne un aperçu des capacités spécifiques au domaine du LLM.
Limitations:
La généralisabilité peut être limitée car les LLM évalués sont limités à ChatGPT et DeepSeek.
Le type et le nombre d’ensembles de données de référence utilisés peuvent être limités.
L’absence de protocoles expérimentaux détaillés peut nécessiter un examen de reproductibilité.
Des évaluations supplémentaires sont nécessaires pour des tâches PNL plus diverses et plus complexes.
👍