HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

Author

Haebom

저자

Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu

💡 개요

본 논문은 기존 음성 토크나이저들의 제약점을 극복하기 위해, 음성 생성과 이해 모두에 강점을 가지는 연속적인 홀리스틱 토크나이저인 HoliTok을 제안합니다. HoliTok은 고품질 음성 파형으로 디코딩 가능하면서도 언어 모델이 학습하기 용이한 토큰화 공간을 제공하며, 이를 통해 통합된 음성 생성-이해 모델 구축을 목표로 합니다. 실험 결과, HoliTok은 우수한 복원 충실도를 보이고 고품질 및 제어 가능한 음성 합성을 위한 생성 학습 능력을 향상시키며, 추가적인 최적화 기법 없이도 통합된 생성-이해 아키텍처에서 강건하게 작동하는 유일한 표현 방식으로 나타났습니다.

🔑 시사점 및 한계

•

음성 생성과 이해를 통합하는 단일 아키텍처를 위한 효과적인 음성 표현 방식을 제시합니다.

•

기존 방식 대비 더 간결하고 통합적인 학습 설계를 가능하게 합니다.

•

다양한 음성 데이터셋 및 복잡한 음성 인식 시나리오에서의 성능 검증이 추가적으로 필요할 수 있습니다.

PDF 보기

Made with Slashpage