MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement
Created by
Haebom
作者
Yufan Deng, Yuanyang Yin, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Shenghai Yuan, Yiding Yang, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
概要
本稿では、任意の種類と組み合わせの参照先とテキストプロンプトに基づいてビデオを合成する「Any-reference video generation」の問題について説明します。著者は、アイデンティティの不一致、複数の参照先間のもつれ、コピーペーストアーティファクトなどの問題を解決するために、MAGREFと呼ばれる統合フレームワークを提案しています。 MAGREFは、マスクベースのガイドとターゲット分離メカニズムを使用して、さまざまな参照画像やテキストプロンプトに柔軟に対応します。マスクベースのガイドは、領域認識マスクとピクセル単位のチャネル接続を介して複数のオブジェクトの外観特性を保存し、ターゲット分離メカニズムはテキスト条件から派生した各ターゲットの意味値を対応する視覚領域に注入します。さらに、4段階のデータパイプラインを構築してコピー/ペーストアーティファクトを軽減します。広範な実験により、MAGREFは従来の最先端技術を上回ることを実証しました。