CoVoMix2는 제로샷 다중 화자 대화 생성을 위한 완전 비자동회귀 프레임워크입니다. 기존 시스템의 화자 일관성 유지, 중첩된 발화 모델링, 효율적인 응집성 대화 합성의 어려움을 해결하기 위해, 멜 스펙트로그램을 멀티 스트림 전사본에서 직접 예측하는 플로우 매칭 기반 생성 모델을 사용합니다. 중간 토큰 표현에 의존하지 않으며, 실제 대화 역동성을 더 잘 포착하기 위해 전사 수준 화자 분리, 문장 수준 정렬, 프롬프트 수준 랜덤 마스킹 전략을 제안합니다. MoonCast와 Sesame 등 강력한 기준 모델보다 음성 품질, 화자 일관성, 추론 속도 면에서 최첨단 성능을 달성하며, 프롬프트에 대한 전사가 필요 없고 중첩된 발화 및 정확한 시간 제어를 포함한 제어 가능한 대화 생성을 지원합니다.