Cet article présente la première étude exhaustive comparant le modèle d'inférence open source DeepSeek-R1 à GPT-4o et GPT-4o-mini d'OpenAI. Nous avons évalué les performances du modèle 671B et de ses homologues réduits avec seulement quelques exécutions d'entraînement, et avons constaté que DeepSeek-R1 a obtenu un score F1 de 91,39 % sur cinq tâches de classification des émotions et une précision de 99,31 % sur deux tâches de classification des émotions. Cela représente une amélioration d'un facteur huit par rapport à GPT-4o, démontrant une grande efficacité avec seulement quelques exécutions d'entraînement. De plus, nous avons analysé l'effet de distillation par architecture, démontrant que le modèle 32B basé sur Qwen2.5 surpassait le modèle 70B basé sur Llama de 6,69 points de pourcentage. DeepSeek-R1 améliore l'explicabilité en traçant de manière transparente le processus d'inférence étape par étape, mais souffre d'un débit réduit (Limitations).