Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding

Created by
  • Haebom

作者

Sudhanshu Agrawal, Risheek Garrepalli, Raghavv Goel, Mingu Lee, Christopher Lott, Fatih Porikli

概要

本論文は、拡散言語モデル(DLLM)の推論速度を向上させる新しい推論アルゴリズムであるSpiffyを提案する。 SpiffyはdLLMの出力分布を維持しながら、推論速度を2.8〜3.1倍向上させます。このアルゴリズムは、自己推測スキームを使用してdLLMの分布を利用してドラフト状態を生成し、双方向ブロック単位のdLLM生成スキームを利用する新しい方向性ドラフトグラフを提案する。また、効率的なオフライン補正アルゴリズムを用いて高品質のグラフ構成を決定し、収率を上げる。 Spiffyは、KVキャッシュやマルチトークンアンマスキングなどの他の並列復号アルゴリズムと組み合わせて、最大7.9倍の速度向上を達成できます。

Takeaways、Limitations

Takeaways:
DLLM推論速度を2.8〜3.1倍向上させるSpiffyアルゴリズム提案
自動推測方式でDLLMの自己分布を活用したドラフト状態の生成
双方向ブロック単位のDLLM生成方式を利用した新しい方向性ドラフトグラフ設計
オフライン補正アルゴリズムによる高品質グラフ構成の最適化
KVキャッシングやマルチトークンアンマスキングなどの他の方法との相乗効果により、最大7.9倍の速度向上が可能。
Limitations:
論文に具体的なLimitations言及なし。
👍