Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Created by
  • Haebom

作者

Shuang Cheng, Yihan Bian, Dawei Liu, Linfeng Zhang, Qian Yao, Zhongbo Tian, Wenhai Wang, Qipeng Guo, Kai Chen, Biqing Qi, Bowen Zhou

概要

SDARは、オートリグレシブモデルのトレーニング効率とディフュージョンモデルの並列推論能力を組み合わせた相乗効果ディフュージョン - オートリグレッションパラダイムです。 SDARは、高価なエンドツーエンドディフュージョントレーニングの代わりに、よく訓練されたオートリグレシブ(AR)モデルを短く、データ効率的な適応によってブロック単位ディフュージョンモデルに変換します。推論プロセスでは、SDARはグローバルな一貫性のためにブロック間オートリグレシブ方式でシーケンスを生成し、各ブロック内のすべてのトークンを離散ディフュージョンプロセスを介して並列にデコードします。 SDARは、ARレベルの性能を維持しながら並列生成を可能にし、効率的なAR-to-diffusion変換を達成します。拡張研究により、SDARはブロックサイズとデコードしきい値に対する強力な堅牢性を示し、精度を損なうことなくより大きな速度向上を提供します。さらに、SDARは推論能力とドメイン適応性を向上させ、GPQAやChemBenchなどの困難な科学的推論ベンチマークでARモデルを上回ります。

Takeaways、Limitations

Takeaways:
オートリグレシブモデルの訓練効率とディフュージョンモデルの並列推論能力の組み合わせ
データ効率的なAR-to-diffusion変換
ブロックサイズとデコードしきい値に対するロバスト性の確保
推論能力とドメイン適応性の向上
GPQAやChemBenchなどの難しい科学的推論ベンチマークでARモデルを上回る
大規模モデルでより大きなスピードアップを提供
Limitations:
本稿では具体的なLimitationsは明記しない
👍