Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

Created by
  • Haebom

作者

Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi

概要

この論文は、画像トルクナイザーを構築するための新しい方向を提示し、固定ビジョンベースのモデルを利用します。特に、固定されたビジョンベースのモデルをトルクナイザーのエンコーダとして使用し、(1)2Dグリッドで事前学習された特徴の冗長性を減らす領域適応型量子化フレームワークと、(2)トルクナイザーの出力をベースモデル表現と整列して意味的忠実度を維持する意味的再構築目標を導入した。 VFMTokという提案されたイメージトークナイザーは、イメージ再構成および生成品質を向上させ、トークン効率を高め、ImageNetベンチマークで1.36のgFIDを達成し、モデル収束速度を3倍向上させ、分類器なしの指示なしに高品質クラス条件付き合成を可能にした。

Takeaways、Limitations

固定ビジョンベースのモデルを活用したイメージトークナイザー構築の新しいアプローチの提示
領域適応量子化フレームワークとセマンティック再構築目標導入による性能向上
画像の再構成と生成品質、トークン効率の向上
ImageNetベンチマークでgFID 1.36を達成し、モデル収束速度を3倍向上
分類器なしの指示なしで高品質クラス条件付き合成可能
コード公開( https://github.com/CVMI-Lab/VFMTok
Limitationsは論文に記載されていません
👍