haebom
Sign In
ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Tingshu Mou, Jiabo He, Renying Wang, Ce Liu, Hao Yang, Tiehua Zhang, Jingjing Chen, Xingjun Ma
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ 3D ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ํ๊ธฐ ์ํ ์๋ก์ด ํ๋ ์์ํฌ์ธ ViSRA๋ฅผ ์ ์ํฉ๋๋ค. ViSRA๋ ๋ณ๋์ ํ์ต ๊ณผ์ ์์ด ์ ๋ฌธ๊ฐ ๋ชจ๋ธ๋ก๋ถํฐ ์ถ์ถ๋ ๋ช ์์ ์ธ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ MLLM์ ๊ณต๊ฐ ์ถ๋ก ๋ฉ์ปค๋์ฆ์ ๋ชจ๋์์ผ๋ก ์๋์ํต๋๋ค. ์ด๋ฅผ ํตํด ํ๋ จ ์์ด๋ MLLM์ 3D ๊ณต๊ฐ ์ดํด ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ๋ค์ํ 3D ๊ณต๊ฐ ์ถ๋ก ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ๋ จ ์์ด MLLM์ 3D ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์ ์ ์
โข
์ธ๊ฐ๊ณผ ์ ์ฌํ๋ฉฐ ๋ค์ํ ์์ ์ ์ ์ด ๊ฐ๋ฅํ 3D ๊ณต๊ฐ ์ดํด ๋ฅ๋ ฅ ํ๋ณด
โข
๊ธฐ์กด ๋ฒค์น๋งํฌ ๋ฐ ๋ฏธ์ง์ 3D ๊ณต๊ฐ ์ถ๋ก ์์ ๋ชจ๋์์ ์ฑ๋ฅ ํฅ์ ํ์ธ
โข
ViSRA ์์ฒด์ ๊ณต๊ฐ ์ ๋ณด ์ถ์ถ ๋ชจ๋ธ ์ฑ๋ฅ ๋ฐ ํจ์จ์ฑ ๊ฐ์ ์ ์ฌ์ง
PDF ๋ณด๊ธฐ
Made with Slashpage