Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Created by
Haebom
Category
Empty
저자
Teo Guichoux, Theodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
개요
Gelina는 텍스트로부터 음성과 동시 발생 제스처를 함께 생성하는 통합 프레임워크입니다. 이 프레임워크는 이산 자기 회귀 백본에서 토큰 시퀀스를 인터리빙 방식으로 사용하여 음성과 제스처를 동시에 합성하며, 모달리티별 디코더를 사용합니다. Gelina는 다중 화자 및 다중 스타일 클로닝을 지원하고 음성 입력으로부터 제스처만 생성하는 기능을 제공합니다.
시사점, 한계점
•
음성 및 제스처 동시 생성: Gelina는 음성과 제스처를 순차적으로 생성하는 기존 방식의 단점을 개선하여, 더 나은 동기화와 운율 정렬을 제공합니다.
•
다중 화자 및 스타일 지원: 다중 화자 및 다중 스타일 클로닝을 지원하여 다양한 음성 및 제스처 표현을 가능하게 합니다.
•
제스처 전용 생성 기능: 음성 입력으로부터 제스처만 생성하는 기능을 통해 유연성을 제공합니다.
•
경쟁력 있는 성능: 주관적 및 객관적 평가에서 단일 모달리티 기반 모델보다 우수한 음성 품질과 제스처 생성을 보여줍니다.