Sign In

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ ์ง€์‹œ์— ๋”ฐ๋ผ 3D ์žฅ๋ฉด์„ ์ง์ ‘ ํŽธ์ง‘ํ•  ์ˆ˜ ์žˆ๋Š” VGGT-Edit๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ 2D ํŽธ์ง‘ ํ›„ 3D๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ์‹์˜ ๋‹จ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, VGGT-Edit๋Š” ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ 3D ๊ณต๊ฐ„์— ํšจ๊ณผ์ ์œผ๋กœ ์ฃผ์ž…ํ•˜๊ณ  ์žฅ๋ฉด์˜ ๊ธฐํ•˜ํ•™์  ๋ณ€์œ„๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜์—ฌ ํŽธ์ง‘์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํ๋ฆฟํ•œ ํ…์Šค์ฒ˜์™€ ๋ถˆ์ผ์น˜ํ•˜๋Š” ๊ธฐํ•˜ํ•™์  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋†’์€ ํ’ˆ์งˆ์˜ 3D ์žฅ๋ฉด ํŽธ์ง‘ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ์ง์ ‘์ ์ธ 3D ์žฅ๋ฉด ํŽธ์ง‘ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•˜์—ฌ, ๊ธฐ์กด 2D ํŽธ์ง‘ ํ›„ 3D ๋ณ€ํ™˜ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊นŠ์ด ์ •๋ณด์™€ ํ…์ŠคํŠธ ์ง€์‹œ๋ฅผ ๋™๊ธฐํ™”ํ•˜๊ณ  ์ž”์ฐจ ๋ณ€ํ™˜์„ ํ†ตํ•ด 3D ์žฅ๋ฉด์„ ์ง์ ‘ ๋ณ€ํ˜•ํ•จ์œผ๋กœ์จ, ๊ฐ์ฒด ๋””ํ…Œ์ผ๊ณผ ๋‹ค์ค‘ ๋ทฐ ์ผ๊ด€์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
์ƒˆ๋กœ์šด DeltaScene ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ์—„๊ฒฉํ•œ ๊ฐ๋… ๋•๋ถ„์— ๋†’์€ ํ’ˆ์งˆ์˜ ํŽธ์ง‘ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, ๊ฑฐ์˜ ์‹ค์‹œ๊ฐ„์— ๊ฐ€๊นŒ์šด ์ถ”๋ก  ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
(ํ•œ๊ณ„์  ๋˜๋Š” ํ–ฅํ›„ ๊ณผ์ œ) ํ˜„์žฌ๋Š” ํ…์ŠคํŠธ ์„ค๋ช…์— ๊ธฐ๋ฐ˜ํ•œ ํŽธ์ง‘์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋” ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ์ถ”์ƒ์ ์ธ ํŽธ์ง‘ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘