Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Interleaving Reasoning for Better Text-to-Image Generation

Created by
  • Haebom

作者

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng Wan

概要

本論文は,統合マルチモーダル理解と生成モデルの画像生成能力の向上にもかかわらず,GPT-4のような理解と生成を緊密に組み合わせるシステムと比較して,指示に従うことと詳細保存に大きな違いが残っていることを指摘した。この論文では、相互作用推論を活用してテキストイメージ(T2I)生成を改善する方法を探ります。この目的のために、テキストベースの思考と画像合成を交互に行う相互作用推論生成(IRG)フレームワークを提案します。 IRGは最初にテキストベースの思考を生成して初期画像を生成し、その結果を反映して意味を維持しながら、詳細、視覚的品質、美的要素を改善します。効果的なIRGトレーニングのために、最初の思考と生成段階の強化と、高品質のテキストの反映と後続の画像での正確な実装を目指す相互作用推論生成学習(IRGL)を提案します。 6つの分解された学習モードで構成されたIRGL-300Kデータセットを活用して、インタラクションテキスト - 画像出力を生成する統合ベースのモデルを皮切りに、2段階のトレーニングを通じて強力な思考と反映機能を構築し、全体的な思考 - 画像軌跡データからIRGパイプラインを効率的に調整します。実験結果は、GenEval、WISE、TIIF、GenAI-Bench、OneIG-ENで5-10点の絶対的な性能向上と、視覚品質と細部忠実度の大幅な改善を示しています。コード、モデルの重み、およびデータセットは公開される予定です。

Takeaways、Limitations

Takeaways:
相互作用推論を利用した新しいT2I生成フレームワーク(IRG)の提示とその有効性の検証
GenEval、WISE、TIIF、GenAI-Bench、OneIG-ENなど、さまざまなベンチマークで最先端のパフォーマンスを達成。
視覚的な品質と詳細な忠実度の向上。
IRGL-300Kデータセット公開による研究の再現性とその後の研究支援
Limitations:
提案された方法の一般化性能に関するさらなる研究の必要性
特定のタイプの画像生成に対する偏りの可能性の存在
大規模なデータセット学習に必要なコンピューティングリソースの要件。
👍