Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation

Created by
  • Haebom

作者

Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Songlin Tang, Jiwen Liu, Borui Liao, Hejia Chen, Xiaoqiang Liu, Pengfei Wan

概要

この論文は、リアルタイムの相互作用を可能にするデジタル人間ビデオ生成フレームワークを提示します。従来の方法の高い計算コストと制限的な制御性問題を解決するために、低遅延推論が可能な自己回帰ビデオ生成方式を提案します。大規模な言語モデル(LLM)を最小限に修正し、オーディオ、ポーズ、テキストなどさまざまな条件付きエンコーディングを受け入れ、拡散モデルのノイズ除去プロセスを案内する空間的、意味的に一貫した表現を出力します。約20,000時間分の大規模な会話データセットを構築してモデル学習に使用し、最大64倍の圧縮率を提供する深層圧縮オートエンコーダを導入し、自己回帰モデルの長期推論負荷を効果的に低減します。これにより、双方向会話、多言語人間合成、インタラクティブワールドモデルなど、さまざまな実験で低遅延、高効率、細かいマルチモーダル制御性を実現します。

Takeaways、Limitations

Takeaways:
リアルタイムインタラクションが可能なデジタル人間ビデオ生成の新しい可能性を提示
多様なモーダル(オーディオ、ポーズ、テキスト)を活用した洗練された制御性を確保
深層圧縮オートエンコーダによる低遅延、高効率推論を達成
大規模な会話データセットの構築による実際の会話シナリオの反映
Limitations:
提案方法の一般化性能の追加評価が必要
圧縮中に発生する可能性のある情報損失と画質劣化の問題の分析が必要
20,000時間の会話データセットの構成と品質の詳細な説明
他の最先端の方法との比較分析がより詳細に必要である。
👍