Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Evaluating LLMs on Real-World Forecasting Against Expert Forecasters

Created by
  • Haebom

作者

Janna Lu

概要

本論文は、最先端の大規模言語モデル(LLM)の将来予測能力を評価した研究です。 Metaculusの464の予測質問を使用して、LLMのパフォーマンスを最高の予測者と専門家のグループと比較しました。その結果、最先端のモデルは人間の集団よりも優れたブライアースコアを達成しましたが、専門家の集団にはまだかなり悪いことがわかりました。昨年まで、LLMは人間の集団の精度に近づくことはできませんでしたが、最近のモデルはかなりの進歩を遂げました。

Takeaways、Limitations

Takeaways:
最先端のLLMが将来の予測能力に大きな進歩を遂げたことを示しています。
LLMの予測性能は人間の集団を上回ることができますが、専門家の集団にはまだありません。
LLMの将来予測能力の向上に関するさらなる研究が必要である。
Limitations:
研究に使用されたデータセットの制限により、一般化の可能性について疑問が残ります。
専門家のグループとのパフォーマンスの違いの原因分析が不足しています。
LLMの予測信頼性と解釈の可能性に関するさらなる研究が必要である。
👍