本論文は、オープンソース推論モデルであるDeepSeek-R1の性能をOpenAIのGPT-4oおよびGPT-4o-miniと比較評価した研究である。 671Bモデルとその縮小版を対象に、何回の学習だけでも優れた性能を示すか実験した。 DeepSeek-R1は、5クラスの感性分析で91.39%のF1スコア、2クラスの感性分析で99.31%の精度を達成し、GPT-4oよりも8倍の効率が向上しました。また、32B Qwen2.5ベースモデルが70B Llamaベースモデルより6.69%p高い性能を示すなど、アーキテクチャによる蒸留効果も確認された。 DeepSeek-R1は推論プロセスの透明性によって解釈の可能性を高めましたが、処理速度はやや遅いというLimitationsを持っています。