Dans cet article, nous présentons une nouvelle méthode permettant de compresser et de quantifier efficacement les représentations de caractéristiques intermédiaires de modèles parole/audio pré-entraînés, en nous concentrant sur le codage audio pour machines (ACoM). Contrairement aux codecs audio neuronaux conventionnels axés sur la reconstruction haute fidélité, notre étude vise à minimiser la dégradation des performances des sous-modèles, même à des débits binaires ultra-faibles (< 200 bps), en privilégiant les performances des sous-tâches. En exploitant la perte par quantification vectorielle résiduelle (RVQ) et les conseils de perte spécifiques à chaque tâche, nous construisons un tokenizer applicable à différents débits binaires et tailles de modèles, et démontrons son efficacité pour les tâches de reconnaissance vocale automatique et de classification audio.