Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

A comprehensive study of LLM-based argument classification: from LLAMA through GPT-4o to Deepseek-R1

Created by
  • Haebom

作者

Marcin Pietro n, Rafa{\l} Olszowski, Jakub Gomu{\l}ka, Filip Gampel, Andrzej Tomski

概要

本論文は、論証マイニング(Argument Mining, AM)分野における大規模言語モデル(LLM)の性能を様々なデータセット(Args.me, UKPなど)を用いて評価した研究である。 GPT、Llama、DeepSeekなど、複数のLLMとChain-of-Thoughtsアルゴリズムを適用した推論強化変形モデルを比較分析し、ChatGPT-4oが一般的な argument classification benchmark で最も優れた性能を示し、推論機能が追加されたモデルの中ではDeepseek-R1が最も優れたことを明らかにした。しかし、最高性能のモデルでさえエラーを犯し、そのようなエラーの種類を分析し、今後の改善の方向を示した。また、既存のプロンプトアルゴリズムのLimitationsを指摘し、使用された argument データセットの欠点を詳細に分析して示した。本研究は、LLMおよびpromptアルゴリズムを用いたArgs.meおよびUKPデータセットの最初の広範な分析として評価される。

Takeaways、Limitations

Takeaways:
様々なLLMおよびpromptアルゴリズムを用いた論証マイニング性能比較分析により、ChatGPT-4oとDeepseek-R1の優秀性を確認した。
LLMベースの議論マイニングの現状と限界を明確に提示し、今後の研究方向を示した。
Args.meとUKPデータセットの分析を通して、データセット自体の改善の方向を示した。
既存のプロンプトアルゴリズムのLimitationsを明らかにし、改善の方向を示した。
Limitations:
分析に使用されるLLMとデータセットの種類は限定的です。
LLMのエラータイプの分析はより深い必要があります。
提示された改善方向の実験的検証が不足している。
👍