Sign In

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Created by
  • Haebom
Category
Empty

์ €์ž

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ๊ฐ€์ • ํ™˜๊ฒฝ์—์„œ ํšจ์œจ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ ๊ฐ์ฒด ํƒ์ƒ‰์„ ์œ„ํ•ด 3D ์žฅ๋ฉด ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์˜ ์ƒˆ๋กœ์šด ํƒ์ƒ‰ ๋ฐฉ๋ฒ•๋ก ์ธ SCOUT๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SCOUT๋Š” ๊ฐ์ฒด ๊ฐ„์˜ ํฌํ•จ ๊ด€๊ณ„ ๋ฐ ๋™์‹œ ๋ฐœ์ƒ ๊ด€๊ณ„์™€ ๊ฐ™์€ ํƒ์ƒ‰ ํœด๋ฆฌ์Šคํ‹ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐฉ, ๊ฐœ์ฒ™์ง€, ๊ฐ์ฒด์— ์œ ์šฉ๋„ ์ ์ˆ˜๋ฅผ ํ• ๋‹นํ•˜๊ณ , ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์—์„œ ์ถ”์ถœ๋œ ๊ตฌ์กฐํ™”๋œ ๊ด€๊ณ„ ์ง€์‹์„ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์— ์ฃผ์ž…ํ•˜๋Š” ์ ˆ์ฐจ์  ์ฆ๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ๋ฐฐํฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์‹ฌ๋ณผ๋ฆญ ๋ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, SCOUT๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ LLM ์ˆ˜์ค€์˜ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํšจ์œจ์ ์ธ 3D ์žฅ๋ฉด ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰: SCOUT๋Š” 3D ์žฅ๋ฉด ๊ทธ๋ž˜ํ”„๋ฅผ ์ง์ ‘ ํ™œ์šฉํ•˜์—ฌ ๊ฐ์ฒด ๊ฐ„์˜ ๋ณต์žกํ•œ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๊ณ  ํƒ์ƒ‰ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
LLM ์ง€์‹์˜ ์‹ค์šฉ์ ์ธ ์ ์šฉ: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ๋กœ ์••์ถ•ํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡ ์ถ”๋ก ์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์–ด LLM์˜ ์žฅ๋ฒฝ์„ ๋‚ฎ์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ƒˆ๋กœ์šด ์‹ฌ๋ณผ๋ฆญ ๋ฒค์น˜๋งˆํฌ SymSearch ์ œ๊ณต: ์ƒํ˜ธ์ž‘์šฉ ๊ฐ์ฒด ํƒ์ƒ‰์—์„œ์˜ ์˜๋ฏธ๋ก ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์‹ฌ๋ณผ๋ฆญ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œํ•œ๋œ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ™˜๊ฒฝ์—์„œ์˜ ์„ฑ๋Šฅ: ์‹ค์ œ ๋‹ค์–‘ํ•œ ๊ฐ€์ • ํ™˜๊ฒฝ์˜ ๋ชจ๋“  ๊ฐ์ฒด์™€ ๊ด€๊ณ„๋ฅผ ํฌ๊ด„ํ•˜๊ธฐ์—๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ•™์Šต ํ™˜๊ฒฝ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ ํ™•์žฅ๋  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘