Sign In

VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation

Created by
  • Haebom
Category
Empty

์ €์ž

Mengtian Li, Yuwei Lu, Feifei Li, Chenqi Gan, Zhifeng Xie, Xi Wang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ์„ฑ๋˜๋Š” ์นด๋ฉ”๋ผ ๊ถค์  ์ƒ์„ฑ ๋ชจ๋ธ์ด ๊ฐ๋…์˜ ํ”ผ๋“œ๋ฐฑ ์—†์ด ์‹œ๊ฐ์ ์œผ๋กœ ๋ฐ”๋žŒ์งํ•˜์ง€ ์•Š์€ ๊ฒฐ๊ณผ(ํ™”๋ฉด ๋ฐ– ๋“ฑ์žฅ์ธ๋ฌผ, ๋ถ€์ ์ ˆํ•œ ๊ตฌ๋„ ๋“ฑ)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด VERTIGO๋ผ๋Š” ์‹œ๊ฐ์  ์„ ํ˜ธ๋„ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. VERTIGO๋Š” ์‹ค์‹œ๊ฐ„ ๊ทธ๋ž˜ํ”ฝ ์—”์ง„์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์นด๋ฉ”๋ผ ๊ถค์ ์˜ 2D ๋ฏธ๋ฆฌ๋ณด๊ธฐ๋ฅผ ๋ Œ๋”๋งํ•˜๊ณ , ์ด๋ฅผ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ์„ค๋ช…๊ณผ ๋น„๊ตํ•˜์—ฌ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ ์ง์ ‘ ์„ ํ˜ธ๋„ ์ตœ์ ํ™”(DPO)๋ฅผ ์œ„ํ•œ ์‹œ๊ฐ์  ์„ ํ˜ธ๋„ ์‹ ํ˜ธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, VERTIGO๋Š” ์กฐ๊ฑด ์ค€์ˆ˜, ๊ตฌ๋„ ํ’ˆ์งˆ, ์ธ์ง€์  ์‚ฌ์‹ค๊ฐ์—์„œ ์ผ๊ด€๋œ ํ–ฅ์ƒ์„ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ ๋“ฑ์žฅ์ธ๋ฌผ ํ™”๋ฉด ์ดํƒˆ๋ฅ ์„ 38%์—์„œ ๊ฑฐ์˜ 0%๋กœ ์ค„์ด๋ฉด์„œ๋„ ์นด๋ฉ”๋ผ ๊ถค์ ์˜ ๊ธฐํ•˜ํ•™์  ์ถฉ์‹ค๋„๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ…์ŠคํŠธ ์กฐ๊ฑด๊ณผ ์‹œ๊ฐ์  ์„ ํ˜ธ๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์นด๋ฉ”๋ผ ๊ถค์  ์ƒ์„ฑ์˜ ์งˆ์  ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์‹œ๊ฐ„ ๋ Œ๋”๋ง๊ณผ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์„ ํ˜ธ๋„ ํ•™์Šต ๋ฐฉ์‹์€ ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ฐ๋… ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ cyclic semantic similarity ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ๋ Œ๋”๋ง ๊ฒฐ๊ณผ ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ Unity ์—”์ง„ ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ Œ๋”๋ง ์—”์ง„ ๋ฐ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์€ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘