Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

One Quantizer is Enough: Toward a Lightweight Audio Codec

Created by
  • Haebom

저자

Linwei Zhai, Han Ding, Cui Zhao, fei wang, Ge Wang, Wang Zhi, Wei Xi

개요

본 논문은 고품질 오디오 압축 및 생성 모델링 작업에 활용 가능한 이산 토큰 생성에 효과적인 신경망 기반 오디오 코덱인 SQCodec을 제시합니다. 기존의 다중 양자화기 기반 접근 방식의 높은 계산 비용과 제한된 실제 적용성 문제를 해결하기 위해 단일 양자화기를 사용하는 경량화된 모델을 설계했습니다. SQCodec은 간소화된 합성곱 신경망과 지역 Transformer 모듈, 그리고 다양한 시간 척도에서 음향 변화를 포착하는 새로운 메커니즘인 TConv를 활용하여 모델 복잡성을 줄이면서 재구성 충실도를 향상시킵니다. 다양한 데이터셋에 대한 실험 결과, SQCodec은 다중 양자화기 기반 모델과 비슷한 오디오 품질을 달성하면서도, 단일 양자화기 설계로 적응성을 높이고 자원 소비량을 10배 이상 줄였습니다. 소스 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
단일 양자화기를 사용하여 계산 비용을 획기적으로 줄인 경량화된 신경망 기반 오디오 코덱을 제시.
다중 양자화기 기반 모델과 비교하여 유사한 오디오 품질을 달성.
향상된 적응성과 낮은 자원 소모량으로 실제 환경에서의 적용성 확대.
공개된 소스 코드를 통해 연구의 재현성 및 확장성 확보.
한계점:
본 논문에서 제시된 TConv 메커니즘의 일반화 성능 및 다른 오디오 코덱 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
다양한 오디오 데이터셋에 대한 성능 평가 결과는 제시되었으나, 특정 유형의 오디오에 대한 성능 저하 가능성 존재.
단일 양자화기 사용으로 인한 잠재적인 오디오 품질 저하 가능성에 대한 추가 분석 필요.
👍