Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Created by
  • Haebom

作者

Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang

概要

RandARは、任意のトークン順に画像を生成できるデコーダ専用の視覚的自己回帰(AR)モデルです。既存のデコーダ専用のARモデルは事前定義された生成順序に依存しますが、RandARはこれらの帰納的偏向を排除してデコーダ専用の生成に新しい機能を提供します。コア設計は、予測する次の画像トークンの前に空間的位置を示す「位置指示トークン」を挿入することで、任意の順序を可能にします。ランダムに並べ替えられたトークンシーケンス(固定順序の作成よりも難しい作業)で訓練されたRandARは、従来のラスター順序モデルと比較してパフォーマンスを達成します。さらに重要なのは、ランダムな順序で訓練されたデコーダ専用のトランスは新しい機能を獲得することです。 ARモデルの効率性ボトルネックを解決するために、RandARは推論時にKV-Cacheを使用した並列復号化を採用し、生成品質を低下させることなく2.5倍の速度向上を提供します。さらに、RandARはゼロショット方式でインペイント、アウトペイント、解像度の外挿をサポートします。

Takeaways、Limitations

Takeaways:
デコーダ専用のビジュアル生成モデルの新しい方向を提示します。
任意のトークン順序で画像を生成することができ、既存のモデルの限界を克服します。
並列復号化により推論速度を2.5倍向上させました。
ゼロショット方式でInpainting、outpainting、解像度外挿をサポートします。
Limitations:
論文では具体的なLimitationsは明示的に述べられていない。追加の実験と分析により、RandARのパフォーマンス制限や特定の画像タイプに対する脆弱性などが明らかになる必要があります。
ランダム順序生成の利点を明確に示し、既存の固定順序モデルと比較して実質的な利点をより具体的に分析する必要があります。
👍