Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CODA: Repurposing Continuous VAEs for Discrete Tokenization

Created by
  • Haebom

作者

Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang

概要

CODA(Continuous-to-Discrete Adaptation)は、画像圧縮と離散化を分離して視覚的トークン化を実行するフレームワークです。従来のトークン化方式とは異なり、CODAは圧縮に最適化された連続VAEを活用して、安定した学習と高いコードブックの活用を保証します。 CODAは、ImageNet 256x256ベンチマークでVQGANよりも6倍少ない学習予算で優れた再構成FID(rFID)を達成しました。

Takeaways、Limitations

Takeaways:
圧縮と離散化を分離して学習安定性を確保し、コードブックの活用度を高める。
既存のVAEをリサイクルし、効率的な学習が可能。
ImageNet 256x256ベンチマークで優れた画像再構成性能を発揮。
Limitations:
論文に具体的なLimitationsは示されていない。
👍