Este artículo presenta el primer estudio exhaustivo que compara el modelo de inferencia de código abierto DeepSeek-R1 con GPT-4o y GPT-4o-mini de OpenAI. Evaluamos el rendimiento del modelo 671B y sus contrapartes reducidas con solo unas pocas ejecuciones de entrenamiento, y descubrimos que DeepSeek-R1 logró una puntuación F1 del 91,39 % en cinco tareas de clasificación de emociones y una precisión del 99,31 % en dos tareas de clasificación de emociones. Esto representa una mejora de ocho veces sobre GPT-4o, lo que demuestra una alta eficiencia con solo unas pocas ejecuciones de entrenamiento. Además, analizamos el efecto de destilación por arquitectura, demostrando que el modelo basado en Qwen2.5 de 32B superó al modelo basado en Llama de 70B en 6,69 puntos porcentuales. DeepSeek-R1 mejora la explicabilidad al rastrear de forma transparente el proceso de inferencia paso a paso, pero sufre de un rendimiento reducido (Limitations).