Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

Created by
  • Haebom

저자

Li-Wei Chen, Takuya Higuchi, Zakaria Aldeneh, Ahmed Hussen Abdelaziz, Alexander Rudnicky

개요

본 논문은 대규모 언어 모델의 성공을 바탕으로 음성 모델링에 적용하는 연구에 대해 다룹니다. 기존의 자기지도 학습 모델 기반 음성 토큰화는 언어적 측면에 치중하여, 자연스러움이 떨어지는 음성 생성 문제를 야기합니다. 이를 해결하기 위해 기존 연구들은 음높이 정보를 추가하는 방법을 사용하지만, 이는 제한적입니다. 따라서 본 논문은 연속적인 음성 속성을 자동으로 인코딩하여 의미 토큰을 향상시키는 종단 간 변분적 접근법을 제시합니다. 수동적인 특징 추출 및 선택 과정을 제거하고, 사람 평가자에 따른 선호도가 높은 음성 연속을 생성합니다. 코드, 샘플 및 모델은 GitHub에서 공개합니다.

시사점, 한계점

시사점:
음성 모델링에서 자연스러운 음성 생성을 위한 새로운 종단 간 변분적 접근법 제시.
수동적인 특징 엔지니어링의 필요성 제거.
사람 평가자에 의해 선호되는 음성 연속 생성.
공개된 코드, 샘플 및 모델을 통한 재현성 및 활용성 증대.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 언어 및 음성 데이터에 대한 적용성 평가 필요.
변분적 접근법의 계산 비용 및 복잡도에 대한 고려 필요.
👍