๋ณธ ๋
ผ๋ฌธ์ ์ค์ ๊ฐ์ ๋ก๋ด ํ๋ จ์ ํ์ํ ๋ค์ํ๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ณต์กํ ์ค๋ด ํ๊ฒฝ์ ์์ฑํ๋ ๋ฐ ์ด๋ ค์์ด ์๋ค๋ ๋ฌธ์ ๋ฅผ ์ธ์ํ๊ณ , ์์ฐ์ด ํ๋กฌํํธ๋ก๋ถํฐ ์๋ฎฌ๋ ์ด์
๊ฐ๋ฅํ ์ค๋ด ํ๊ฒฝ์ ์์ฑํ๋ 'SceneSmith'๋ผ๋ ๊ณ์ธต์ ์์ด์ ํธ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. SceneSmith๋ VLM(Vision-Language Model) ์์ด์ ํธ๋ค์ด ์ค๊ณ์, ๋นํ๊ฐ, ์กฐ์ ์ ์ญํ ์ ์ํํ๋ฉฐ ๊ฑด์ถ ๋ ์ด์์๋ถํฐ ๊ฐ๊ตฌ ๋ฐฐ์น, ์ํ ๊ฐ์ฒด ์ถ๊ฐ๊น์ง ๋จ๊ณ๋ณ๋ก ์ฅ๋ฉด์ ๊ตฌ์ฑํ๊ณ , ํ
์คํธ-ํฌ-3D ํฉ์ฑ, ๋ฐ์ดํฐ์
๊ฒ์, ๋ฌผ๋ฆฌ ์์ฑ ์ถ์ ๋ฑ์ ํตํฉํ์ฌ ์ฌ์ค์ ์ด๊ณ ๋ก๋ด ์๋ฎฌ๋ ์ด์
์ ์ ํฉํ ์ฅ๋ฉด์ ์์ฑํฉ๋๋ค.