One Quantizer is Enough: Toward a Lightweight Audio Codec
Created by
Haebom
저자
Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi
개요
본 논문은 고품질 오디오 압축 및 생성 모델링 작업에 활용 가능한 이산 토큰 생성에 효과적인 신경망 기반 오디오 코덱인 SQCodec을 제시합니다. 기존의 다중 양자화기 기반 접근 방식의 높은 계산 비용과 제한된 실제 적용성 문제를 해결하기 위해 단일 양자화기를 사용하는 경량화된 모델을 설계했습니다. SQCodec은 간소화된 합성곱 신경망과 지역 Transformer 모듈, 그리고 다양한 시간 척도에서 음향 변화를 포착하는 새로운 메커니즘인 TConv를 활용하여 모델 복잡성을 줄이면서 재구성 충실도를 향상시킵니다. 다양한 데이터셋에 대한 실험 결과, SQCodec은 다중 양자화기 기반 모델과 비슷한 오디오 품질을 달성하면서도, 단일 양자화기 설계로 적응성을 높이고 자원 소비량을 10배 이상 줄였습니다. 소스 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
단일 양자화기를 사용하여 계산 비용을 획기적으로 줄인 경량화된 신경망 기반 오디오 코덱을 제시.
◦
다중 양자화기 기반 모델과 비교하여 유사한 오디오 품질을 달성.
◦
향상된 적응성과 낮은 자원 소모량으로 실제 환경에서의 적용성 확대.
◦
공개된 소스 코드를 통해 연구의 재현성 및 확장성 확보.
•
한계점:
◦
본 논문에서 제시된 TConv 메커니즘의 일반화 성능 및 다른 오디오 코덱 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
◦
다양한 오디오 데이터셋에 대한 성능 평가 결과는 제시되었으나, 특정 유형의 오디오에 대한 성능 저하 가능성 존재.