Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships

Created by
  • Haebom

作者

Donggyu Lee, Sungwon Park, Yerin Hwang, Hyoshin Kim, Hyunwoo Oh, Jungwon Kim, Meeyoung Cha, Sangyoon Park, Jihee Kim

概要

大規模言語モデル(LLM)の因果推論能力評価のための新しいベンチマークを提示。既存のベンチマークの限界を克服しようと、経済・金融分野の最高ジャーナルから因果関係を抽出し、40,379の評価項目で構成。健康、環境、技術、法律、文化など、5つの分野で5種類の課題が含まれています。 8つの最先端LLMを対象に実験した結果、最高性能モデルも57.6%の精度にとどまった。モデル規模は性能向上につながらず、高度な推論モデルでさえも基本的な因果関係の識別に困難がある。

Takeaways、Limitations

Takeaways:
LLMの因果推論能力の欠如を証明。
高リスクアプリケーションにおける信頼できる因果推論の必要性を強調する。
モデル規模が性能向上を保証しないことを示唆。
Limitations:
具体的なLimitationsは示されていません。
👍