Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Hita: Holistic Tokenizer for Autoregressive Image Generation

Created by
  • Haebom

作者

Anlin Zheng, Haochen Wang, Yucheng Zhao, Weipeng Deng, Tiancai Wang, Xiangyu Zhang, Xiaojuan Qi

概要

Hitaは、既存の自己回帰画像生成モデルの限界を克服するために提案された新しい画像トルクナイザーです。既存のモデルは、トークンを逐次生成しながら全体的な関係を捉えることが困難であり、地域的なパッチ情報に依存してグローバル情報を制限的に活用するという問題がある。 Hitaは、学習可能な全体的なクエリとローカルパッチトークンを使用するフルゾーントークナイズ方式を導入することで、これらの問題を解決します。トークン全体を最初に配置し、その後にパッチトークンを配置する順次構造と因果的アテンションを使用して以前のトークンに対する認識を維持し、軽量フュージョンモジュールを介して情報の流れを制御し、トークン全体の優先順位を上げます。 ImageNetベンチマークでFID 2.59、IS 281.9を達成し、従来のトルクナイザーより優れた性能を示し、トレーニング速度も向上させました。また、ゼロショットスタイルの遷移やイメージインペインティングでも効果的であることを示しました。

Takeaways、Limitations

Takeaways:
自己回帰画像生成モデルの性能向上:ImageNetでSOTA性能を達成する(FID 2.59、IS 281.9)。
トレーニングのスピードアップ。
グローバルイメージの特徴(テクスチャ、マテリアル、フォーム)のキャプチャ能力の向上.
ゼロショットスタイルの遷移と画像インペインティングにおける効果的な利用可能性
グローバル - ローカルトルクナイザー設計に対する新しいアプローチを提示します。
Limitations:
論文では、HitaのLimitationsへの明示的な言及がない。今後の研究により、さらなる改善の余地がある可能性があります。
特定のハードウェア環境に対する依存性または拡張性に関する情報が不足しています。
👍