Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MoonCast: High-Quality Zero-Shot Podcast Generation

Created by
  • Haebom
Category
Empty

저자

Zeqian Ju, Dongchao Yang, Jianwei Yu, Kai Shen, Yichong Leng, Zhengtao Wang, Xu Tan, Xinyu Zhou, Tao Qin, Xiangyang Li

개요

본 논문은 MoonCast라는 새로운 시스템을 제안합니다. MoonCast는 텍스트 기반 소스(예: 스토리, 기술 보고서, 뉴스 등)로부터 미등록 화자의 목소리를 사용하여 고품질의 제로샷 팟캐스트 생성을 목표로 합니다. 기존 텍스트 음성 변환 시스템이 긴 발화, 다중 화자, 즉흥적인 대화 생성에 어려움을 겪는다는 점을 고려하여, 긴 맥락 언어 모델 기반 오디오 모델링 접근 방식과 팟캐스트 생성 모듈을 활용하여 긴 오디오 생성과 자연스러움을 향상시킵니다. 긴 맥락 음성 데이터를 활용하여 긴 오디오 생성을 하고, 팟캐스트 생성 모듈을 통해 즉흥적인 세부 사항을 추가하여 자연스러움을 높입니다. 실험 결과, MoonCast는 기존 시스템보다 특히 자연스러움과 일관성 측면에서 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
긴 맥락 언어 모델 기반 오디오 모델링과 팟캐스트 생성 모듈을 결합하여 고품질의 긴 팟캐스트를 제로샷으로 생성하는 새로운 방법을 제시합니다.
기존 텍스트 음성 변환 시스템의 한계였던 긴 발화, 다중 화자, 즉흥적인 대화 생성 문제를 효과적으로 해결합니다.
텍스트 기반 소스로부터 다양한 형태의 팟캐스트를 생성할 수 있는 가능성을 열었습니다.
한계점:
실제 팟캐스트의 다양성을 완벽하게 반영하지 못할 수 있습니다.
사용된 긴 맥락 음성 데이터의 규모와 품질에 따라 성능이 영향을 받을 수 있습니다.
다중 화자 팟캐스트 생성에 대한 성능 평가가 부족할 수 있습니다.
윤리적인 문제(예: 음성 합성을 악용한 가짜 뉴스 생성)에 대한 고려가 부족할 수 있습니다.
👍