Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AToken: A Unified Tokenizer for Vision

Created by
  • Haebom

作者

Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

概要

ATokenは、画像、ビデオ、3Dアセットをすべて高品質に再構成し、意味を理解する最初の統合された視覚トークナイザーです。従来のトルクナイザが単一のモダリティの再構築または理解の1つに特化したものとは異なり、ATokenはさまざまな視覚入力を共有する4D潜在スペースにエンコードし、単一のフレームワークで2つのタスクと複数のモダリティを統合します。ランダムな解像度と時間持続時間を持つ視覚入力を処理するために、4D回転位置埋め込みを使用する純粋なトランスデューサアーキテクチャを導入しました。安定した訓練のために、知覚損失とグラム行列損失を組み合わせた敵対的でないトレーニング目標を導入し、最先端の再構成品質を達成しました。プログレッシブトレーニングカリキュラムを使用して、ATokenは単一の画像、ビデオ、3Dで徐々に拡張され、連続および離散潜在トークンの両方をサポートします。 ATokenは、画像に対して0.21 rFIDと82.2%のImageNet精度、ビデオに対して3.01 rFVDと40.2%MSRVTT検索精度、3Dに対して28.28 PSNRと90.9%の分類精度を達成します。サブアプリケーションでは、ATokenはビジュアル作成タスク(連続トークンとディスクリートトークンを使用した画像生成、テキストビデオ生成、画像3D合成)と理解タスク(マルチモーダルLLMなど)の両方を可能にし、すべてのベンチマークで競争力のあるパフォーマンスを達成します。これらの結果は、統合された視覚的トークン化に基づいて構築された次世代マルチモーダルAIシステムへの洞察を提供します。

Takeaways、Limitations

Takeaways:
画像、ビデオ、3Dアセットを統合的に処理する視覚トークナイザーの新しい可能性を提示します。
高品質の再構成と意味の理解を同時に達成する性能。
さまざまなダウンストリームアプリケーション(画像生成、テキストビデオ生成、マルチモーダルLLMなど)での競争力のあるパフォーマンス。
次世代マルチモーダルAIシステム開発の新しい方向性の提示
Limitations:
論文では具体的なLimitationsや今後の研究方向への言及が不足している。
特定のモダリティのパフォーマンスが他のモダリティと比較して比較的低い可能性があります(明示的な言及はありませんが、各モダリティのパフォーマンス指標の違いがあります)。
大規模データセットのパフォーマンス評価と一般化パフォーマンスに関する追加の研究が必要です。
👍