Sign In

SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence

Created by
  • Haebom
Category
Empty

์ €์ž

Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ๊ณต๊ฐ„ ์ง€๋Šฅ ํ‰๊ฐ€๋Š” ํŒŒํŽธํ™”๋˜๊ณ  ๋ฒ”์œ„๊ฐ€ ์ œํ•œ์ ์ด์—ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ MLLM์˜ ๊ณต๊ฐ„ ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ด์ฒด์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ณ , ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์•ˆํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๊ฐ€์žฅ ํฌ๊ด„์ ์ด๊ณ  ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์ธ SpatialScore๋ฅผ ๊ฐœ๋ฐœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด 49๊ฐœ์˜ MLLM์„ ํ‰๊ฐ€ํ•˜์—ฌ ํ˜„์žฌ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทœ๋ช…ํ–ˆ๋‹ค. ๋˜ํ•œ, SpatialCorpus์™€ SpatialAgent๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ณต๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•œ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
MLLM์˜ ๊ณต๊ฐ„ ์ง€๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํฌ๊ด„์ ์ด๊ณ  ๋‹ค๋ชฉ์  ๋ฒค์น˜๋งˆํฌ(SpatialScore)์™€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹(SpatialCorpus)์„ ์ œ์‹œํ•˜์—ฌ ํ•ด๋‹น ๋ถ„์•ผ์˜ ๋ฐœ์ „์„ ์œ„ํ•œ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)๊ณผ ํ›ˆ๋ จ ์—†๋Š”(training-free) ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹(SpatialAgent) ๋ชจ๋‘ MLLM์˜ ๊ณต๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ๋‹ค.
โ€ข
ํ˜„์žฌ MLLM์€ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ๊ณต๊ฐ„ ์ง€๋Šฅ์— ๋„๋‹ฌํ•˜๊ธฐ๊นŒ์ง€ ์ƒ๋‹นํ•œ ๊ฒฉ์ฐจ๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์‹œ๊ฐ์  ์ •๋ณด์™€ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์–‘์‹์— ๋Œ€ํ•œ ์ดํ•ด์—์„œ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” ๋” ๋‹ค์–‘ํ•œ ๊ณต๊ฐ„์  ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ๋ฐ์ดํ„ฐ ์œ ํ˜•์„ ํฌํ•จํ•˜๊ณ , ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ง๊ด€์ ์ธ ๊ณต๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ชจ๋ธ์— ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€์•ผ ํ•  ๊ฒƒ์ด๋‹ค.
๐Ÿ‘