Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reconstruction Alignment Improves Unified Multimodal Models

Created by
  • Haebom

作者

Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang

概要

本論文は、単一のアーキテクチャ内で視覚的理解と生成を統合するユニファイドマルチモードモデル(UMM)のパフォーマンスを向上させるためのポストトレーニング方法である再構築アライメント(RecA)を提供します。 RecAは、画像 - テキストペアのまれなキャプションの代わりに、UMMの視覚的理解エンコーダ埋め込みを「テキストプロンプト」として活用して、密集した監督を提供します。これにより、UMMが自己視覚的理解の埋め込みに基づいて入力画像を再構成するように最適化され、理解と生成が並べ替えられます。 RecAはさまざまなUMMアーキテクチャに適用可能で、画像の作成と編集の忠実度を向上させます。

Takeaways、Limitations

Takeaways:
RecAは、画像 - テキストペアのまれなキャプションなしでUMMのパフォーマンスを向上させる効率的なポストトレーニング方法です。
さまざまなUMMアーキテクチャに適用可能で、画像の作成と編集のパフォーマンスを向上させます。
27 GPU時間だけで、GenEvalやDPGBenchなどのベンチマークで大幅な性能向上が見られます。
既存の大型オープンソースモデルを凌駕する性能を見せる。
Limitations:
本論文では、RecAの潜在的なLimitationsについての具体的な言及はない。 (論文の要約に含まれない)
👍