この論文は、大規模言語モデル(LLM)の演繹的推論能力を向上させるための新しいアプローチを提示します。テスト時間拡張と結果またはコース補償モデルを組み合わせた既存の研究に基づいて、演繹的推論に特化した結果補償モデル(ORM)を提案します。 ORMトレーニングのためにシングルサンプルとマルチサンプルを使用したChain-of-Thought(CoT)を介してデータを生成し、LLMのエラー傾向を利用して追加トレーニングデータを生成する「エコー生成技術」を新たに提案します。この技法は、従来のCoT方式よりも多様なタイプのエラーを含むトレーニングデータを生成する。実験の結果、CoTとエコエンハンスメントデータでトレーニングされたORMは、FOLIO、JustLogic、ProverQAデータセットで4つの異なるLLMのパフォーマンスを向上させることがわかりました。