Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Created by
  • Haebom

作者

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

概要

本論文では、データの分布の観点から、Chain-of-Thought(CoT)プロンプトによる大規模言語モデル(LLM)のパフォーマンスが向上する現象を研究します。 CoT推論が訓練データから学習された構造的帰納的偏向を反映しているかどうか、すなわち訓練データと試験クエリの間の分布の不一致の程度によって効果が制限されるかどうかを調べます。課題、長さ、形式の3つの次元でCoT推論を分析するために、LLMを最初から訓練し、さまざまな分布条件下で体系的に調査する制御された環境であるDataAlchemyを設計して使用しました。研究の結果、CoT推論は、訓練の分布から離れると消える脆弱な現象であることを明らかにした。したがって、真に一般化可能な推論を達成することは依然として困難な課題であることを強調している。

Takeaways、Limitations

Takeaways: CoT推論はトレーニングデータの分布に大きく依存し、トレーニングデータとは異なる分布のデータについてはパフォーマンスが急激に低下することを示しています。これは、CoT推論の限界と真の推論能力の欠如を示唆している。 DataAlchemyなどの制御された環境を介してLLMの推論能力を体系的に評価する新しい方法論を提示します。
Limitations: DataAlchemy環境は特定の条件下での実験結果を提示するため、実際の複雑な環境での一般化の可能性に関するさらなる研究が必要です。本研究はCoT推論の脆弱性を強調しているが、CoTプロンプトの利点や他の改善方向についての議論は不足している。特定のタイプのLLMとデータセットに限定された結果である可能性があるため、他のモデルとデータセットに関するさらなる研究が必要です。
👍