본 논문은 기계를 위한 오디오 코딩(ACoM)에 초점을 맞춰, 이미 훈련된 음성/오디오 모델의 중간 특징 표현을 효율적으로 압축하고 양자화하는 새로운 방법을 제시합니다. 기존의 고충실도 재구성에 중점을 둔 신경망 오디오 코덱과 달리, 본 연구는 하위 작업 성능을 최우선으로 고려하여 초저 비트율(200 bps 미만)에서도 하위 모델 성능 저하를 최소화하는 것을 목표로 합니다. 잔차 벡터 양자화(RVQ) 손실과 작업별 손실 안내를 활용하여 다양한 비트율과 모델 크기에 적용 가능한 토크나이저를 구축하며, 자동 음성 인식과 오디오 분류 작업에서 효과를 입증합니다.