haebom
Sign In
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Zhan Liu, Changli Tang, Yuxin Wang, Zhiyuan Zhu, Youjun Chen, Yiwen Shao, Tianzi Wang, Lei Ke, Zengrui Jin, Chao Zhang
๐ก ๊ฐ์
๊ธฐ์กด ์ค๋์ค-๋น์ฃผ์ผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(AV-LLMs)์ด 2D ์์๊ณผ ๋จ์ผ ์ฑ๋ ์์ฑ์ ๊ตญํ๋์ด 3D ๊ณต๊ฐ์์์ ์ ๋ขฐํ ์ ์๋ ์์ค ์์น ํ์ ๋ฐ ๊ณต๊ฐ ์ถ๋ก ์ ํ๊ณ๋ฅผ ๋ณด์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ RGB-D ๊ด์ธก๊ณผ ๋ค์ฑ๋ ์ฐ๋น์๋์ค๋ฅผ ํตํฉํ์ฌ JAEGER๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํตํด AV-LLM์ 3D ๊ณต๊ฐ์ผ๋ก ํ์ฅํ์ฌ ๊ณต๋ ๊ณต๊ฐ ์ ์ง ๋ฐ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
3D ๊ณต๊ฐ์์์ ์ค๋์ค-๋น์ฃผ์ผ ์ํธ์์ฉ ๋ฐ ์ถ๋ก ์ ์ํ ๋ช ์์ ์ธ 3D ๋ชจ๋ธ๋ง์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
โข
์ ๊ฒฝ ๊ฐ๋ ๋ฒกํฐ(Neural IV)๋ผ๋ ์๋ก์ด ํ์ตํ ๊ณต๊ฐ ์ํฅ ํํ์ ํตํด ์ค๋ฒ๋ฉ๋๋ ์์ ํ๊ฒฝ์์๋ ์ ํํ ๋ฐฉํฅ ํ์ง๋ฅผ ๊ฐ์ ํฉ๋๋ค.
โข
61,000๊ฐ์ ์ํ๋ก ๊ตฌ์ฑ๋ ์๋ฎฌ๋ ์ด์ ๋ ๋ฌผ๋ฆฌ ํ๊ฒฝ ๊ธฐ๋ฐ์ SpatialSceneQA ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ์ฌ ๋๊ท๋ชจ ํ์ต ๋ฐ ์ฒด๊ณ์ ์ธ ํ๊ฐ๋ฅผ ์ง์ํฉ๋๋ค.
โข
ํ์ฌ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๊ตญํ๋์ด ์์ด ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ ๋ฐ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage