본 논문은 대규모 언어 모델의 성공에 영감을 받아, 음성 데이터를 토큰으로 변환하여 음성 처리에 적용하는 연구를 소개한다. 기존의 한계를 극복하기 위해, FocalCodec이라는 효율적인 저비트율 코덱을 개발했다. FocalCodec은 단일 바이너리 코드북을 사용하며, 0.16~0.65 kbps의 낮은 비트율로 음성을 압축한다. 이 코덱은 음성 재합성 및 음성 변환에서 기존 최고 성능의 코덱보다 낮은 비트율에서도 경쟁력 있는 성능을 보이며, 다국어 음성 및 잡음 환경에서도 효과적으로 작동한다. 또한, 다운스트림 작업 평가를 통해 FocalCodec이 충분한 의미적 및 음향적 정보를 보존하고 생성 모델링에도 적합함을 입증했다.