本論文は、論証マイニング(Argument Mining, AM)分野における大規模言語モデル(LLM)の性能を様々なデータセット(Args.me, UKPなど)を用いて評価した研究である。 GPT、Llama、DeepSeekなど、複数のLLMとChain-of-Thoughtsアルゴリズムを適用した推論強化変形モデルを比較分析し、ChatGPT-4oが一般的な argument classification benchmark で最も優れた性能を示し、推論機能が追加されたモデルの中ではDeepseek-R1が最も優れたことを明らかにした。しかし、最高性能のモデルでさえエラーを犯し、そのようなエラーの種類を分析し、今後の改善の方向を示した。また、既存のプロンプトアルゴリズムのLimitationsを指摘し、使用された argument データセットの欠点を詳細に分析して示した。本研究は、LLMおよびpromptアルゴリズムを用いたArgs.meおよびUKPデータセットの最初の広範な分析として評価される。