SecoustiCodec은 음성과 텍스트 언어 모델을 통합하는 데 중요한 역할을 하는 저비트레이트 스트리밍 음성 코덱입니다. 기존 코덱의 한계점인 의미론적 인코딩의 잔여 부차적 언어 정보(음색, 감정 등), 불충분한 의미 완전성, 제한된 재구성 능력, 스트리밍 지원 부족 문제를 해결하기 위해 제안되었습니다. 단일 코드북 공간에서 의미론적 정보와 부차적 언어 정보를 분리하고, 의미 완전성과 재구성 충실도를 보장하기 위해 부차적 언어 인코딩을 도입했습니다. VAE와 FSQ 기반의 의미론 전용 효율적인 양자화 방법을 제안하여 토큰의 긴 꼬리 분포 문제를 완화하고 높은 코드북 활용률을 유지합니다. 대조 학습 기반의 의미 분리 방법을 통해 텍스트와 음성을 공동 다중 모드 프레임 수준 공간에서 정렬하여 의미론적 인코딩에서 부차적 언어 정보를 효과적으로 제거합니다. 강력하고 안정적인 수렴을 보장하기 위해 음향 제약 다단계 최적화 전략을 제안했습니다. 0.27/1 kbps에서 1.77/2.58의 PESQ 값을 달성하여 최첨단(SOTA) 재구성 품질을 보였습니다. 코드와 모델 가중치는 공개되었습니다.
시사점, 한계점
•
시사점:
◦
저비트레이트 환경에서 높은 음성 재구성 품질(SOTA 달성)을 제공합니다.
◦
의미론적 정보와 부차적 언어 정보를 효과적으로 분리하는 새로운 방법을 제시합니다.
◦
스트리밍 환경에 적합한 음성 코덱입니다.
◦
코드와 모델 가중치가 공개되어 활용성이 높습니다.
•
한계점:
◦
논문에서 구체적인 한계점이 명시적으로 언급되지 않았습니다. 추가적인 실험이나 비교 분석을 통해 더 자세한 한계점을 파악할 필요가 있습니다.