haebom
Sign In
VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Hongyang Du, Junjie Ye, Xiaoyan Cong, Runhao Li, Jingcheng Ni, Aman Agarwal, Zeqi Zhou, Zekun Li, Randall Balestriero, Yue Wang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด ๋น๋์ค ํ์ฐ ๋ชจ๋ธ(VDMs)์ด 3D ๊ตฌ์กฐ ์ผ๊ด์ฑ์ ์ ์งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ์ ์๋ VideoGPA๋ ๊ธฐํํ์ ์ง์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ์ฉํ์ฌ 3D ์ผ๊ด์ฑ์ ์ํ ์๋ํ๋ ์ ํธ๋ ์ ํธ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ DPO(Direct Preference Optimization) ๊ธฐ๋ฒ์ผ๋ก VDM์ ํ์ต์์ผ 3D ๊ตฌ์กฐ ์ผ๊ด์ฑ์ ๊ฐํํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ณ๋์ ์ธ๊ฐ ์ฃผ์ ์์ด๋ ๋น๋์ค์ ์๊ฐ์ ์์ ์ฑ, ๊ธฐํํ์ ํ๋น์ฑ, ์์ง์ ์ผ๊ด์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ธฐ์กด ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ 3D ์ผ๊ด์ฑ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๊ธฐํํ์ ์ง์๊ณผ DPO๋ฅผ ๊ฒฐํฉํ์ฌ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค.
โข
์ ์ ์์ ์ ํธ๋ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋์ ํ์ง์ 3D ์ผ๊ด์ฑ์ ๊ฐ์ถ ๋น๋์ค ์์ฑ์ด ๊ฐ๋ฅํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ๋ฐ์ด๋ฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ์ ์ธ๊ฐ ์ฃผ์ ์์ด๋ ํ์ต ๊ฐ๋ฅํ์ฌ ์ค์ฉ์ ์ ๋๋ค.
โข
๊ธฐํํ์ ์ง์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด๋ ํธํฅ์ด VideoGPA์ ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฏธ์น ์ ์์ผ๋ฉฐ, ๋ณต์กํ๊ณ ๋น์ ํ์ ์ธ ๊ฐ์ฒด๋ ์ฅ๋ฉด์์์ ์ผ๊ด์ฑ ์ ์ง์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage