๋ณธ ๋
ผ๋ฌธ์ ์ด๋ฏธ์ง-๋น๋์ค(Image-to-Video, I2V) ์์ฑ ๋ชจ๋ธ์ด ํ
์คํธ-๋น๋์ค(Text-to-Video, T2V) ๋ชจ๋ธ์ ๋นํด ์ ์ ์ธ ๋น๋์ค๋ฅผ ์์ฑํ๋ ๊ฒฝํฅ์ด ์๋ค๋ ๋ฌธ์ ์ ์ ์ง์ ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ฐธ์กฐ ํ๋ ์(reference frame)์ ๊ณผ๋ํ ์ง๋ฐฐ๋ ฅ์ด ์์ ๋ด ์์ง์์ ์ต์ ํ๋ ํต์ฌ ์์ธ์์ ๊ท๋ช
ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐธ์กฐ ํ๋ ์์ผ๋ก ํฅํ๋ ์ดํ
์
๊ฒฝ๋ก๋ฅผ ์ฌ์กฐ์ ํ๋ ํ๋ จ ๋ถํ์ ๋ฐ ๋ชจ๋ธ ๋ถ๋ณ ๋ฐฉ๋ฒ๋ก ์ธ DyMoS๋ฅผ ์ ์ํฉ๋๋ค. DyMoS๋ ๊ธฐ์กด ์ด๋ฏธ์ง์ ๋ชจ๋ธ ๊ฐ์ค์น๋ ๊ทธ๋๋ก ์ ์งํ๋ฉด์, ๋จ์ผ ์ค์นผ๋ผ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์์ง์ ๊ฐ๋๋ฅผ ์ ์ดํ์ฌ ์์ง์ ์ญํ์ ํฅ์์ํค๋ ๋์์ ์๊ฐ์ ํ์ง๊ณผ ์ฐธ์กฐ ์ด๋ฏธ์ง ์ถฉ์ค๋๋ฅผ ์ ์งํฉ๋๋ค.