Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SLR: Automated Synthesis for Scalable Logical Reasoning

Created by
  • Haebom

作者

Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia W ust, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting

概要

この論文は、大規模言語モデル(LLM)の体系的な評価と訓練のためのエンドツーエンドのフレームワークであるSLR(Scalable Logical Reasoning)を提示します。 SLRは、ユーザーの作業仕様に基づいて、(i)帰納的推論作業のための指示プロンプト、(ii)モデル出力に実行可能な検証プログラム(検証可能な報酬を提供)、(iii)潜在的な基礎真実規則を自動的に生成します。このプロセスは完全に自動化され、スケーラブルで、人のコメントを必要とせず、作業の難易度を正確に制御できます。論文では、一眼レフを使用して、関係、算術、および再帰的な複雑さが徐々に増加する20のカリキュラムレベルで構成される19,000のプロンプトからなるベンチマークである一眼レフベンチを作成しました。大規模な評価の結果、最新のLLMは構文的に有効なルールを簡単に生成しますが、正確な論理的推論にはしばしば失敗することがわかりました。最近の推論LLMはパフォーマンスが向上しましたが、1,000件のプロンプトに対して300ドルを超える非常に高いテスト時間の計算コストが発生します。最後に、一眼レフによるカリキュラム学習は、Llama-3-8Bの一眼レフベンチの精度を倍増し、はるかに少ない計算コストでゲミニ-フラッシュ-シンキングと同等のレベルに達した。さらに、これらの推論能力はさまざまな既存のベンチマークに一般化され、下流の推論に対するSLRの効果を強調します。

Takeaways、Limitations

Takeaways:
LLMの論理的推論能力の評価と改善のための効率的でスケーラブルなフレームワークである一眼レフ提示。
人の介入なしに自動的にプロンプト、検証プログラム、基本真実ルールを生成する自動化されたシステムを構築します。
カリキュラム学習はLLMの推論能力を大幅に向上させることができることを実証した。
SLR-Benchという新しい大規模ベンチマークを提供することで、LLMの推論能力を客観的に評価できる基準づくり。
少ないコストで従来の最高性能モデルと同様の性能を達成可能。
改善された推論能力が様々なベンチマークで一般化されることを確認する。
Limitations:
現在、一眼レフベンチは特定の種類の論理的推論問題に集中しており、さまざまな種類の推論問題の一般化性能にはさらなる研究が必要です。
高性能LLMのテスト時間計算コストが依然として高いという点は、今後の改善が必要な部分。
SLRの性能は特定のLLMアーキテクチャに依存する可能性があるため、さまざまなアーキテクチャの追加の実験が必要です。
👍