Este artículo destaca la importancia de la tokenización del habla y la música en los modelos lingüísticos multimodales a gran escala (MLLM) y señala las deficiencias de la investigación existente. Se señala que los estudios existentes carecen de definiciones adecuadas de tokens semánticos y acústicos, y que sus evaluaciones de códecs están sesgadas hacia dominios o tareas específicos (p. ej., reconstrucción o reconocimiento automático del habla), lo que dificulta las comparaciones justas y exhaustivas. Por lo tanto, este artículo propone definiciones apropiadas de tokens semánticos y acústicos y un marco de evaluación sistemática para evaluar el rendimiento del códec en cuatro dimensiones: métricas de reconstrucción acústica, estabilidad del índice del libro de códigos, perplejidad del transformador específica del decodificador y rendimiento de la subtarea. Los resultados experimentales demuestran la validez de las definiciones propuestas y las correlaciones entre las métricas de reconstrucción, la estabilidad del ID del libro de códigos, el rendimiento de la subtarea y la perplejidad.