Bài báo này trình bày nghiên cứu toàn diện đầu tiên so sánh mô hình suy luận nguồn mở DeepSeek-R1 với GPT-4o và GPT-4o-mini của OpenAI. Chúng tôi đã đánh giá hiệu suất của mô hình 671B và các đối tác thu nhỏ của nó chỉ với một vài lần chạy huấn luyện và thấy rằng DeepSeek-R1 đạt điểm F1 là 91,39% trên năm tác vụ phân loại cảm xúc và độ chính xác là 99,31% trên hai tác vụ phân loại cảm xúc. Điều này thể hiện sự cải thiện gấp tám lần so với GPT-4o, chứng tỏ hiệu quả cao chỉ với một vài lần chạy huấn luyện. Hơn nữa, chúng tôi đã phân tích hiệu ứng chưng cất theo kiến trúc, chứng minh rằng mô hình dựa trên 32B Qwen2.5 vượt trội hơn mô hình dựa trên 70B Llama 6,69 điểm phần trăm. DeepSeek-R1 cải thiện khả năng giải thích bằng cách theo dõi minh bạch quá trình suy luận từng bước, nhưng bị giảm thông lượng (Limitations).