Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Discrete Diffusion in Large Language and Multimodal Models: A Survey

Created by
  • Haebom

作者

Runpeng Yu, Qi Li, Xinchao Wang

概要

この論文は、離散拡散言語モデル(DLLM)と離散拡散マルチモード言語モデル(dMLLM)の体系的な調査を提供します。自己回帰(AR)モデルとは異なり、dLLMとdMLLMは、完全なアテンションとノイズ除去ベースの生成戦略を使用するマルチトークン並列復号パラダイムを採用しています。このパラダイムは、自然に並列生成、細分化された出力制御、および動的認識を可能にします。これらの機能は、以前はARモデルでは達成することが困難でした。多くの工業規模の独占d(M)LLMと多くのオープンソース学術d(M)LLMが自己回帰モデルと同様の性能を示すとともに、推論速度を最大10倍まで向上させました。この進歩は、離散拡散モデルを既存の自己回帰アプローチベースの知能に対する有望な代替手段として位置づけます。本論文では、dLLMとdMLLMの分野での研究の包括的な概要を紹介します。 dLLMとdMLLMの歴史的発展を追跡し、基本的な数学的フレームワークを定式化し、一般的に使用されるモデリング方法をリストし、代表的なモデルを分類します。また、訓練、推論、量子化の主なスキルを分析し、信頼できる問題を議論し、言語、ビジョン言語、生物学的ドメインなどの新しいアプリケーションをまとめます。最後に、研究と展開のための将来の方向について説明します。関連論文はhttps://github.com/LiQiiiii/Awesome-Discrete-Diffusion-LLM_MLLMで確認できます。

Takeaways、Limitations

Takeaways:
離散拡散モデルは、自己回帰モデルと比較して最大10倍の高速推論速度を提供し、並列生成、細分化された出力制御、動的認識などの機能を提供します。
産業および学界では、さまざまな離散拡散モデルが開発され、自己回帰モデルと比較可能なパフォーマンスを示しています。
言語、ビジョン、言語、生物学など、さまざまな分野に適用可能性を示します。
Limitations:
本論文では具体的なLimitationsへの言及はありません。さらなる研究により、離散拡散モデルのLimitationsを明らかにする必要があります。 (例:特定の作業におけるパフォーマンスの低下、訓練、推論の複雑さなど)
👍