Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
๋น„์–ด ์žˆ์Œ

์ €์ž

Binh Long Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ 3D Gaussian Splatting (3D-GS) ๊ธฐ๋ฐ˜์˜ ์ธ์Šคํ„ด์Šค ์ˆ˜์ค€ ์—ด๋ฆฐ ์–ดํœ˜ 3D ์žฅ๋ฉด ์ดํ•ด๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ธ Ilov3Splat์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ 2D ๋ Œ๋”๋ง ๊ธฐ๋ฐ˜ ๋งค์นญ ๋˜๋Š” ํฌ์ธํŠธ ์ˆ˜์ค€ ์˜๋ฏธ ์—ฐ๊ด€์„ฑ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, Ilov3Splat์€ ๋ทฐ ์ผ๊ด€์„ฑ์„ ๊ฐ€์ง„ ํ”ผ์ฒ˜ ํ•„๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์žฅ๋ฉด ๊ธฐํ•˜์™€ ์˜๋ฏธ ํ‘œํ˜„์„ ๊ณต๋™์œผ๋กœ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ž์—ฐ์–ด ์„ค๋ช…์„ ๋ฐ”ํƒ•์œผ๋กœ 3D ์žฅ๋ฉด ๋‚ด ์ž„์˜์˜ ๊ฐ์ฒด๋ฅผ ์‹๋ณ„ํ•˜๋Š” ์œ ์—ฐํ•˜๊ณ  ์ •ํ™•ํ•œ ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
3D Gaussian Splatting์— ์–ธ์–ด ๋ชจ๋ธ (CLIP)๊ณผ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  (SAM)์„ ํ†ตํ•ฉํ•˜์—ฌ, 3D ์žฅ๋ฉด์—์„œ ํ…์ŠคํŠธ ์„ค๋ช…์„ ํ†ตํ•ด ๊ฐ์ฒด๋ฅผ ์‹๋ณ„ํ•˜๊ณ  ๋ถ„ํ• ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด 2D ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋ทฐ ์ผ๊ด€์„ฑ ๋ฐ ์ธ์Šคํ„ด์Šค ์ˆ˜์ค€์˜ ์˜๋ฏธ๋ก ์  ์ถ”๋ก  ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์ œ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ 3D ์žฅ๋ฉด ์ดํ•ด์˜ ์ •ํ™•์„ฑ๊ณผ ์œ ์—ฐ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณต์žกํ•˜๊ฑฐ๋‚˜ ๋ฐ€์ง‘๋œ 3D ์žฅ๋ฉด์—์„œ์˜ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ์ •ํ™•๋„ ํ–ฅ์ƒ ๋ฐ ๋” ๋„“์€ ๋ฒ”์œ„์˜ ๊ฐ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ดํ•ด๋ฅผ ์œ„ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘