[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

Created by
  • Haebom

作者

Yijing Lin, Mengqi Huang, Shuhan Zhuang, Zhendong Mao

概要

この論文は、単一のフレームワーク内でさまざまな画像生成タスクを統合する問題を解決するために、ビデオモデルに基づく新しいフレームワークであるRealGeneralを提案します。従来の画像生成モデルは、作業固有のデータセットと大規模な学習に依存するか、または事前に訓練された画像モデルを作業ごとに変更する方法を使用して一般化性能が制限されていたのに対し、RealGeneralはビデオモデルの時間的相関モデリング能力を活用して画像生成を条件付きフレーム予測タスクに再構成します。これには、マルチモードアライメント用の統合条件付き埋め込みモジュールとクロスモード干渉を軽減するための統合ストリームDiTブロックが含まれます。実験の結果、RealGeneralは、カスタム作成タスクでトピックの類似度を14.5%向上させ、Cany画像で実際の画像生成タスクで画質を10%向上させるなど、さまざまな画像生成タスクで効果を示しました。

Takeaways、Limitations

Takeaways:
ビデオモデルを活用して、さまざまな画像生成タスクを統合する新しいアプローチを提示します。
LLMのインコンテキスト学習と同様の方法で画像生成の問題を解決します。
さまざまな画像作成作業では、従来のモデルよりも優れた性能を発揮します。
統合条件付き埋め込みモジュールと統合ストリームDiTブロックを介して、マルチモード間の効果的な相互作用を可能にします。
Limitations:
提示されたモデルの一般化性能のさらなる検証が必要である。
特定のタスクに対する過適合の可能性を排除することはできません。
ビデオモデルに基づいているため、ビデオデータの可用性がパフォーマンスに影響を与える可能性があります。
モデルの複雑さと計算コストの分析が不足しています。
👍