Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OmniGen2: Exploration to Advanced Multimodal Generation

Created by
  • Haebom

作者

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bon Wang, Tiejun Huang, Zheng Liu

概要

OmniGen2は、テキスト画像の作成、画像の編集、コンテキスト内の生成など、さまざまな生成作業のための統合ソリューションを提供する多目的オープンソース生成モデルです。 OmniGen v1とは異なり、テキストと画像モダリティのために共有されていないパラメータとは別の画像トークナイザを使用する2つの異なるデコードパスが特徴です。この設計により、OmniGen2は従来のマルチモーダル理解モデルに基づいてVAE入力を再適応することなく、元のテキスト生成機能を維持し、パフォーマンスを向上させることができます。 OmniGen2の学習を容易にするために、画像編集とコンテキスト内生成データを含む包括的なデータ構成パイプラインを開発しました。また、画像作成作業に合わせた反映メカニズムを導入し、OmniGen2ベースの専用反映データセットをキュレーションしました。比較的少ないパラメータサイズにもかかわらず、OmniGen2はテキスト画像や画像編集を含む複数の作業ベンチマークで競争力のある結果を達成します。コンテキスト内の作成(トピック中心の作業)をさらに評価するために、OmniContextという新しいベンチマークを導入し、OmniGen2は一貫性の観点からオープンソースモデルの最先端のパフォーマンスを達成します。モデル、学習コード、データセット、データ構成パイプラインを公開し、この分野の今後の研究を支援する予定です。

Takeaways、Limitations

Takeaways:
さまざまな作成作業のための統合ソリューションを提供します。
従来のマルチモーダル理解モデルを活用して効率的に学習可能。
画像生成のための反映メカニズムの導入と専用データセットの構築。
オープンソースモデルの中で最先端の一貫性性能を達成。
モデル、コード、データセット、パイプライン公開による研究支援。
Limitations:
比較的少ないパラメータサイズによる性能制限の可能性
新しいベンチマークOmniContextの一般性と信頼性のさらなる検証が必要です。
OmniGen2の性能が他の最先端モデルと比較してどれほど優れているかについての定量的分析が不足する可能性があります。
👍