Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

Created by
  • Haebom

作者

Martina Miliani, Serena Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia Passaro, Irene Sucameli, Alessandro Lenci

概要

この論文では、明示的および推論能力を評価するための新しいデータセットExplicaを紹介します。 ExpliCaは、さまざまな言語的順序で提示され、言語的連結語で明示的に表現された因果関係と時間的関係を統合します。クラウドソーシングを通じて収集された人間の水溶性評価を含み、7つの商用およびオープンソースLLMsを対象に、プロンプティングおよびパープレクサティベースの指標を通じて評価しました。評価の結果、最上位モデルでさえ0.80の精度に達することができず、モデルは時間的関係と因果関係を混同する傾向があり、パフォーマンスはイベントの言語的順序に大きく影響されることを明らかにしました。さらに、パープレクサベースのスコアとプロンプトのパフォーマンスは、モデルのサイズによって異なる影響を受けることを確認しました。

Takeaways、Limitations

Takeaways:明示的な因果推論能力を評価するための新しいデータセットExpliCaを提示し、LLMの因果推論能力の詳細な分析を可能にします。 LLMsの因果推論能力の限界を明確に提示し、時間的関係と因果関係の混同や言語的順序の影響などの主要な問題を明らかにする。モデルサイズとパフォーマンスとの相関に関する新しい洞察を提供します。
Limitations: ExpliCaデータセットのサイズと多様性の追加レビューが必要です。評価に使用されたプロンプトスキームとパープレクサ指標のLimitationsの議論が必要です。より多様な種類の因果推論問題と複雑な文章構造に関するさらなる研究の必要性
👍