본 논문은 기존의 복잡하고 계산 비용이 높으며 도메인 외 오디오 신호에 취약한 압축 기반 음성 토큰화 방법의 한계를 극복하기 위해 새로운 음성 표현 방식인 dmel을 제시합니다. dmel은 mel-filterbank 채널을 강도 구간으로 이산화하여 단순하면서도 효과적인 표현을 제공하며, 오디오 콘텐츠 보존력이 뛰어나고 도메인 외 데이터에 대한 강건성을 갖춘 훈련이 필요 없는 자연스럽고 스트리밍 가능한 표현입니다. 또한, 고차원 로그-mel 스펙트로그램의 효율적인 병렬 인코딩 및 디코딩을 위해 LM 스타일 트랜스포머 아키텍처를 활용하여 RichTTS와 RichASR이라는 두 모델을 개발하였으며, 이는 기존의 전문화된 방법들과 비교하여 동등하거나 더 나은 결과를 달성합니다. 결론적으로, dmel은 통합된 프레임워크 내에서 음성 합성 및 인식 작업 모두에서 높은 성능을 달성하는 효율적이고 효과적인 방법임을 보여줍니다.