Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Logical Reasoning with Outcome Reward Models for Test-Time Scaling

Created by
  • Haebom

作者

Ramya Keerthy Thatikonda, Wray Buntine, Ehsan Shareghi

概要

この論文は、大規模言語モデル(LLM)の演繹的推論能力を向上させるための新しいアプローチを提示します。テスト時間拡張と結果またはコース補償モデルを組み合わせた既存の研究に基づいて、演繹的推論に特化した結果補償モデル(ORM)を提案します。 ORMトレーニングのためにシングルサンプルとマルチサンプルを使用したChain-of-Thought(CoT)を介してデータを生成し、LLMのエラー傾向を利用して追加トレーニングデータを生成する「エコー生成技術」を新たに提案します。この技法は、従来のCoT方式よりも多様なタイプのエラーを含むトレーニングデータを生成する。実験の結果、CoTとエコエンハンスメントデータでトレーニングされたORMは、FOLIO、JustLogic、ProverQAデータセットで4つの異なるLLMのパフォーマンスを向上させることがわかりました。

Takeaways、Limitations

Takeaways:
演繹的推論におけるLLM性能向上のための新しい結果補償モデル(ORM)と訓練技術の提示
エコー生成技法による既存のCoT方式の限界を克服し、様々なエラータイプを含むトレーニングデータ生成
FOLIO、JustLogic、ProverQAデータセットで様々なLLMの性能向上を実験的に検証。
Limitations:
エコー生成技術の一般化の可能性と他のタイプの推論問題への適用可能性に関するさらなる研究の必要性
提案されたORMのパフォーマンス向上が特定のデータセットまたはLLMに限定される可能性があります。
さまざまな種類のエラーを包括的に扱うための追加のデータ拡張技術の研究が必要です。
👍