Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Created by
  • Haebom

作者

Zhuokun Chen, Zeren Chen, Jiahao He, Mingkui Tan, Jianfei Cai, Bohan Zhuang

概要

この論文は、思考過程(Chain-of-Thought、CoT)推論の計算コストを削減するための新しい方法であるR-Stitchを提案します。 CoT推論は大規模言語モデル(LLM)の問題解決能力を向上させますが、長いトークンシーケンスの自動回帰デコードのために計算コストがかかります。従来の加速戦略は、早期の中断や圧縮補償の設計によってシーケンス長を短縮したり、小規模モデルを用いた予測復号化により復号化速度を向上させる方法を採用した。しかしながら、予測的復号化は、小規模モデルと大規模モデルとの間の一致率が低い場合には速度の向上が制限され、小規模モデルが簡潔な中間推論を生成するという潜在的な利点を利用しない。 R-Stitchは、小規模言語モデル(SLM)と大規模言語モデル(LLM)を切り替えるトークンレベルの信頼性ベースのハイブリッド復号フレームワークで、SLMの信頼度がしきい値を下回った場合にのみLLMを使用して効率と精度を維持します。モデルとは無関係で、学習は不要で、標準デコードパイプラインと互換性があります。数学推論ベンチマーク実験の結果、R-Stitchは推論遅延時間を最大85%短縮し、精度の低下がほとんどないことを示しています。

Takeaways、Limitations

Takeaways:
CoT推論の計算コストを効果的に削減する新しい方法を提示
推論遅延時間を最大85%まで減少させながら精度低下はほとんどないことを実験的に証明。
モデル - アグノスティック(Model-agnostic)、学習が不要で、標準デコードパイプラインと互換性があり、実用性が高い。
Limitations:
SLMの信頼度しきい値設定に関する追加の研究が必要になる場合があります。
さまざまな種類の問題とモデルの一般化パフォーマンスの追加評価が必要になる場合があります。
SLMとLLMのパフォーマンスの差が大きい場合、パフォーマンスの向上に制限がある可能性があります。
👍