# Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

### 저자

Teo Guichoux, Theodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin

### 💡 개요

본 논문은 인간의 소통이 음성뿐만 아니라 제스처를 통해 이루어진다는 점에 착안하여, 텍스트로부터 음성과 제스처를 동시에 생성하는 통합 프레임워크인 Gelina를 제안합니다. Gelina는 음성과 제스처를 순차적으로 생성하는 기존 방식과 달리, interleaved token sequence를 활용하여 두 모달리티의 동기화와 운율을 강화합니다. 실험 결과, Gelina는 경쟁력 있는 음성 품질과 향상된 제스처 생성 능력을 보여줍니다.

### 🔑 시사점 및 한계

- 인간의 자연스러운 소통 방식을 모방하여 음성과 제스처를 통합적으로 생성함으로써 보다 사실적이고 몰입감 있는 멀티모달 콘텐츠 생성이 가능해집니다.

- 다중 화자 및 스타일 복제, 음성만을 이용한 제스처 생성 등 유연한 기능을 제공하여 다양한 응용 분야에 활용될 수 있습니다.

- 제안된 통합 프레임워크의 성능이 기존 단일 모달리티 기반 방법론과 비교했을 때 우수함을 입증했습니다.

- 대규모의 다양한 언어 및 문화적 배경을 가진 제스처 데이터 학습을 통한 일반화 성능 향상 및 편향성 완화 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2510.12834)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).