# Discrete Audio Tokens: More Than a Survey!

### 저자

Pooneh Mousavi, Gallil Maimon, Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli

### 개요

본 논문은 다양한 하위 작업에서 경쟁력 있는 성능을 유지하면서 지각 품질, 음성 내용 및 화자 특성을 보존하는 것을 목표로 하는 압축된 표현인 이산 오디오 토큰에 대한 체계적인 검토와 벤치마킹을 제공합니다.  음성, 음악, 일반 오디오의 세 가지 영역을 다루며, 인코더-디코더, 양자화 기법, 훈련 패러다임, 스트리밍 가능성 및 응용 분야를 기반으로 토큰화 접근 방식의 분류 체계를 제안합니다. 재구성, 하위 작업 성능 및 음향 언어 모델링에 대한 여러 벤치마크에서 토큰화기를 평가하고, 통제된 ablation 연구를 통해 트레이드오프를 분석합니다.  주요 결과와 토큰화기 데이터베이스는 [https://poonehmousavi.github.io/dates-website/](https://poonehmousavi.github.io/dates-website/) 에서 확인할 수 있습니다.

[Discrete Audio Tokens Empirical Study](https://poonehmousavi.github.io/dates-website/)

### 시사점, 한계점

- **시사점:** 이산 오디오 토큰화기의 체계적인 검토 및 벤치마킹을 통해 다양한 토큰화 방법의 장단점을 비교 분석하고,  향후 연구 방향을 제시합니다.  음성, 음악, 일반 오디오를 아우르는 광범위한 평가를 수행하여 실제 응용에 대한 통찰력을 제공합니다.

- **한계점:**  본 논문에서 다룬 토큰화기의 종류가 모든 가능한 방법론을 포괄하지 못할 수 있습니다.  특정 벤치마크나 데이터셋에 대한 의존성이 존재할 수 있으며,  새로운 토큰화 방법론이나 하드웨어 발전에 따라 결과가 달라질 수 있습니다.  또한,  주관적인 요소가 개입될 수 있는 지각 품질 평가의 한계를 고려해야 합니다.

[PDF 보기](https://arxiv.org/pdf/2506.10274)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).