Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling

Created by
  • Haebom

作者

Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Chenhao Zhu, Xinzhe Juan, Ling Yang, Huazheng Wang, Kaixuan Huang, Yue Wu, Mengdi Wang

概要

この論文では、推論の際にソートを介して大規模言語モデルのパフォーマンスを向上させる方法を提案します。従来のBest-of-N(BoN)サンプリングは高い計算コストを伴いますが、本論文で提示するTreeBoNは予測ツリー探索戦略を統合し、計算コストを削減しながら高い出力品質を維持します. TreeBoN は、Direct Preference Optimization (DPO) から得られたトークンレベルの補償を活用し、ツリーの拡張を導き、低品質のパスを持っています。 AlpacaFarm、HH-RLHF、UltraFeedback、GSM8K、TutorEvalデータセットを使用した評価の結果、TreeBoNは従来のBoNより優れた性能を示し、特にTutorEvalデータセットで65%の勝率を達成しました。

Takeaways、Limitations

Takeaways:
推論時にソートのための効率的な新しいフレームワークであるTreeBoNを提示します。
従来のBoNよりも計算コストを削減し、高い出力品質を維持します。
さまざまなデータセットで優れた性能を発揮し、特にTutorEvalで65%の高い勝率を達成しました。
DPOを活用してツリーナビゲーションを効果的に案内します。
Limitations:
TreeBoNのパフォーマンスの向上は、特定のデータセットとモデルに限定される可能性があります。より多様なモデルとデータセットの実験が必要です。
DPOに依存する部分があるため、DPOの品質によってTreeBoNの性能が影響を受けることがあります。
ツリーナビゲーション戦略の複雑さのために、特定の状況では計算コストが依然として高くなる可能性があります。最適なツリーナビゲーションパラメータの設定に関する追加の研究が必要です。
👍