Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation

Created by
  • Haebom

作者

Shuang Cheng, Yihan Bian, Dawei Liu, Yuhua Jiang, Yihao Liu, Linfeng Zhang, Wenhai Wang, Qipeng Guo, Kai Chen, Biqing Qi, Bowen Zhou

SDAR: Synergistic Diffusion-Autoregression for Scalable, High-Throughput Reasoning

概要

SDARは、自己回帰モデルのトレーニング効率と拡散モデルの並列推論能力を統合する相乗的拡散 - 自動回帰パラダイムです。 SDARは、高コストのエンドツーエンド拡散訓練の代わりに、よく訓練された自己回帰(AR)モデルを単純でデータ効率的な適応によってブロック単位の拡散モデルに変換します。推論の間、SDARは、グローバルな一貫性のためにブロック間に自己回帰的にシーケンスを生成し、同時に各ブロック内のすべてのトークンを離散拡散プロセスを介して並列にデコードします。 ARモデルは、マスクされた拡散モデルよりもはるかに計算効率が高く、これに基づいて、SDARは、ARレベルの性能を維持しながら並列生成を可能にする効率的なAR-to-diffusion変換を最小限のコストで達成します。大規模モデルの研究により、SDARはブロックサイズとデコードしきい値に対する強力な堅牢性を示し、精度を損なうことなくより大きなスピードアップを提供します。さらに、SDARは改善された推論能力とドメイン適応性を示す。 30B MoEモデルは、GPQAやChemBenchなどの厳しい科学的推論ベンチマークのARモデルよりも優れており、多数決投票やpass@kなどのテストタイムスケーリング方法でさらに改善されています。

Takeaways、Limitations

自己回帰モデルの効率と拡散モデルの並列推論能力の組み合わせ
単純なAR-to-diffusion変換による計算効率の維持
ブロックサイズとデコードしきい値に対する強力な堅牢性
改善された推論能力とドメイン適応性
30B MoEモデルは科学的推論ベンチマークで優れています
拡散モデルとARモデルの性能ギャップに関するさらなる研究が必要
変換と適応プロセスの詳細と一般化に関するさらなるレビューが必要
👍