[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching

Created by
  • Haebom

저자

Leying Zhang, Yao Qian, Xiaofei Wang, Manthan Thakker, Dongmei Wang, Jianwei Yu, Haibin Wu, Yuxuan Hu, Jinyu Li, Yanmin Qian, Sheng Zhao

개요

CoVoMix2는 제로샷 다중 화자 대화 생성을 위한 완전 비자동회귀 프레임워크입니다. 기존 시스템의 화자 일관성 유지, 중첩된 발화 모델링, 효율적인 응집성 대화 합성의 어려움을 해결하기 위해, 멜 스펙트로그램을 멀티 스트림 전사본에서 직접 예측하는 플로우 매칭 기반 생성 모델을 사용합니다. 중간 토큰 표현에 의존하지 않으며, 실제 대화 역동성을 더 잘 포착하기 위해 전사 수준 화자 분리, 문장 수준 정렬, 프롬프트 수준 랜덤 마스킹 전략을 제안합니다. MoonCast와 Sesame 등 강력한 기준 모델보다 음성 품질, 화자 일관성, 추론 속도 면에서 최첨단 성능을 달성하며, 프롬프트에 대한 전사가 필요 없고 중첩된 발화 및 정확한 시간 제어를 포함한 제어 가능한 대화 생성을 지원합니다.

시사점, 한계점

시사점:
제로샷 다중 화자 대화 생성에서 최첨단 성능 달성.
기존 시스템의 한계점인 화자 일관성, 중첩 발화 모델링, 효율적인 대화 합성 문제 개선.
프롬프트 전사 없이도 동작하며, 중첩 발화 및 정확한 시간 제어 등 제어 가능한 대화 생성 지원.
실제 음성 생성 시나리오에 대한 강력한 일반화 성능.
한계점:
논문에서 명시적으로 언급된 한계점은 없음. 추가적인 실험이나 분석을 통해 확장성, 특정 유형의 대화에 대한 일반화 성능, 다양한 언어에 대한 적용 가능성 등에 대한 한계가 밝혀질 수 있음.
👍