En este artículo, presentamos un nuevo método para comprimir y cuantificar eficientemente las representaciones de características intermedias de modelos de voz/audio preentrenados, centrándonos en la codificación de audio para máquinas (ACoM). A diferencia de los códecs de audio neuronal convencionales, que se centran en la reconstrucción de alta fidelidad, nuestro estudio busca minimizar la degradación del rendimiento de los submodelos, incluso a tasas de bits ultrabajas (<200 bps), priorizando el rendimiento de las subtareas. Aprovechando la pérdida de cuantificación vectorial residual (RVQ) y la guía de pérdida específica para cada tarea, desarrollamos un tokenizador aplicable a diversas tasas de bits y tamaños de modelo, y demostramos su eficacia en tareas de reconocimiento automático de voz y clasificación de audio.