haebom
Sign In
Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Created by
Haebom
Category
Empty
์ ์
T
eo Guichoux, Th
eodor Lemerle, Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ธ๊ฐ์ ์ํต์ด ์์ฑ๋ฟ๋ง ์๋๋ผ ์ ์ค์ฒ๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ, ํ ์คํธ๋ก๋ถํฐ ์์ฑ๊ณผ ์ ์ค์ฒ๋ฅผ ๋์์ ์์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ์ธ Gelina๋ฅผ ์ ์ํฉ๋๋ค. Gelina๋ ์์ฑ๊ณผ ์ ์ค์ฒ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, interleaved token sequence๋ฅผ ํ์ฉํ์ฌ ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋๊ธฐํ์ ์ด์จ์ ๊ฐํํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, Gelina๋ ๊ฒฝ์๋ ฅ ์๋ ์์ฑ ํ์ง๊ณผ ํฅ์๋ ์ ์ค์ฒ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ธ๊ฐ์ ์์ฐ์ค๋ฌ์ด ์ํต ๋ฐฉ์์ ๋ชจ๋ฐฉํ์ฌ ์์ฑ๊ณผ ์ ์ค์ฒ๋ฅผ ํตํฉ์ ์ผ๋ก ์์ฑํจ์ผ๋ก์จ ๋ณด๋ค ์ฌ์ค์ ์ด๊ณ ๋ชฐ์ ๊ฐ ์๋ ๋ฉํฐ๋ชจ๋ฌ ์ฝํ ์ธ ์์ฑ์ด ๊ฐ๋ฅํด์ง๋๋ค.
โข
๋ค์ค ํ์ ๋ฐ ์คํ์ผ ๋ณต์ , ์์ฑ๋ง์ ์ด์ฉํ ์ ์ค์ฒ ์์ฑ ๋ฑ ์ ์ฐํ ๊ธฐ๋ฅ์ ์ ๊ณตํ์ฌ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ํ์ฉ๋ ์ ์์ต๋๋ค.
โข
์ ์๋ ํตํฉ ํ๋ ์์ํฌ์ ์ฑ๋ฅ์ด ๊ธฐ์กด ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋น๊ตํ์ ๋ ์ฐ์ํจ์ ์ ์ฆํ์ต๋๋ค.
โข
๋๊ท๋ชจ์ ๋ค์ํ ์ธ์ด ๋ฐ ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ์ ์ค์ฒ ๋ฐ์ดํฐ ํ์ต์ ํตํ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ ๋ฐ ํธํฅ์ฑ ์ํ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage