Daily Arxiv

์ „ ์„ธ๊ณ„์—์„œ ๋ฐœ๊ฐ„๋˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋Š” ํŽ˜์ด์ง€ ์ž…๋‹ˆ๋‹ค.
๋ณธ ํŽ˜์ด์ง€๋Š” Google Gemini๋ฅผ ํ™œ์šฉํ•ด ์š”์•ฝ ์ •๋ฆฌํ•˜๋ฉฐ, ๋น„์˜๋ฆฌ๋กœ ์šด์˜ ๋ฉ๋‹ˆ๋‹ค.
๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ์€ ์ €์ž ๋ฐ ํ•ด๋‹น ๊ธฐ๊ด€์— ์žˆ์œผ๋ฉฐ, ๊ณต์œ  ์‹œ ์ถœ์ฒ˜๋งŒ ๋ช…๊ธฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation

Created by
  • Haebom
Category
Empty

์ €์ž

Chenyu Su, Weiwei Shang, Chen Qian, Fei Zhang, Shuang Cong

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ ์ž์—ฐ์–ด ๋ช…๋ น์— ๋”ฐ๋ผ ์œ ์—ฐํ•˜๊ฒŒ ์ž‘๋™ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ์ธ ReSem3D๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ReSem3D๋Š” VFMs(Vision Foundation Models)์™€ MLLMs(Multimodal Large Language Models)์˜ ์‹œ๋„ˆ์ง€๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์„ธ๋ฐ€ํ•œ ์˜๋ฏธ๋ก ์  ๊ธฐ๋ฐ˜์„ ๊ตฌ์ถ•ํ•˜๊ณ , ๊ณ„์ธต์ ์ธ 3D ๊ณต๊ฐ„ ์ œ์•ฝ ์กฐ๊ฑด์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋™์ ์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ œ๋กœ์ƒท ์กฐ๊ฑด์œผ๋กœ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๊ฐ•ํ•œ ์ ์‘๋ ฅ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ œ์•ˆํ•˜๋Š” ReSem3D๋Š” ์กฐ์ž‘์„ ์œ„ํ•ด ์„ธ๋ฐ€ํ•œ ์‹œ๋งจํ‹ฑ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ค์‹œ๊ฐ„ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ๋™์  ๋ณ€ํ™”์— ๋Œ€์‘ํ•˜๋Š” ๋ฐ˜์‘ํ˜• ๋™์ž‘์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ๋กœ์ƒท ์กฐ๊ฑด์—์„œ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ์ž‘์—…์— ๋Œ€ํ•œ ์„ฑ๊ณต์ ์ธ ์ˆ˜ํ–‰์„ ๋ณด์˜€์ง€๋งŒ, MLLMs ์˜์กด์ ์ธ ๋ถ€๋ถ„์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘