Sign In

Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

Created by
  • Haebom
Category
Empty

์ €์ž

Teo Guichoux, Theodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„์˜ ์†Œํ†ต์ด ์Œ์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ œ์Šค์ฒ˜๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ์Œ์„ฑ๊ณผ ์ œ์Šค์ฒ˜๋ฅผ ๋™์‹œ์— ์ƒ์„ฑํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ์ธ Gelina๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Gelina๋Š” ์Œ์„ฑ๊ณผ ์ œ์Šค์ฒ˜๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, interleaved token sequence๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ๋™๊ธฐํ™”์™€ ์šด์œจ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Gelina๋Š” ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์Œ์„ฑ ํ’ˆ์งˆ๊ณผ ํ–ฅ์ƒ๋œ ์ œ์Šค์ฒ˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ธ๊ฐ„์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์†Œํ†ต ๋ฐฉ์‹์„ ๋ชจ๋ฐฉํ•˜์—ฌ ์Œ์„ฑ๊ณผ ์ œ์Šค์ฒ˜๋ฅผ ํ†ตํ•ฉ์ ์œผ๋กœ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ๋ณด๋‹ค ์‚ฌ์‹ค์ ์ด๊ณ  ๋ชฐ์ž…๊ฐ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.
โ€ข
๋‹ค์ค‘ ํ™”์ž ๋ฐ ์Šคํƒ€์ผ ๋ณต์ œ, ์Œ์„ฑ๋งŒ์„ ์ด์šฉํ•œ ์ œ์Šค์ฒ˜ ์ƒ์„ฑ ๋“ฑ ์œ ์—ฐํ•œ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ฑ๋Šฅ์ด ๊ธฐ์กด ๋‹จ์ผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์šฐ์ˆ˜ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋Œ€๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฐ ๋ฌธํ™”์  ๋ฐฐ๊ฒฝ์„ ๊ฐ€์ง„ ์ œ์Šค์ฒ˜ ๋ฐ์ดํ„ฐ ํ•™์Šต์„ ํ†ตํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐ ํŽธํ–ฅ์„ฑ ์™„ํ™” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘