Cet article souligne l'importance de la tokenisation de la parole et de la musique dans les modèles linguistiques multimodaux à grande échelle (MLLM) et souligne les lacunes des recherches existantes. Il souligne que les recherches actuelles manquent de définitions adéquates des tokens sémantiques et acoustiques, et que les évaluations des codecs sont biaisées en faveur de domaines ou de tâches spécifiques (par exemple, la reconstruction ou la reconnaissance vocale automatique), ce qui rend difficiles les comparaisons justes et exhaustives. Par conséquent, cet article propose des définitions appropriées des tokens sémantiques et acoustiques, ainsi qu'un cadre d'évaluation systématique pour évaluer les performances des codecs selon quatre dimensions : les métriques de reconstruction acoustique, la stabilité de l'indice du livre de codes, la perplexité du transformateur spécifique au décodeur et les performances des sous-tâches. Les résultats expérimentaux démontrent la validité des définitions proposées et les corrélations entre les métriques de reconstruction, la stabilité de l'identifiant du livre de codes, les performances des sous-tâches et la perplexité.