本論文は、マルチモーダル大規模言語モデル(MLLM)における音声および音楽トークン化の重要性を強調し、既存の研究のLimitationsを指摘しています。既存の研究では、セマンティックトークンとサウンドトークンの定義が不適切であり、コーデックの評価が特定のドメインまたはタスク(例えば、再構成または自動音声認識)に偏り、公正で包括的な比較が困難であることを問題としています。そこで、本論文は意味トークンと音響トークンの適切な定義を提示し、音響再構成指標、コードブックインデックスの安定性、デコーダ専用のトランスフォーマパープレクティ、サブタスク性能など、4つの次元でコーデックの性能を評価する体系的な評価フレームワークを提案します。実験結果は、提示された定義の妥当性と再構成指標、コードブックIDの安定性、サブタスクのパフォーマンス、およびパープレクサの間の相関関係を示しています。