Sign In

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Peiran Xu, Sudong Wang, Yao Zhu, Jianing Li, Gege Qi, Yunjian Zhang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์‹ค์ œ ์„ธ๊ณ„์˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ง€๋Šฅ์— ํ•„์ˆ˜์ ์ธ ๊ณต๊ฐ„ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ SpatialBench๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๊ณต๊ฐ„ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ๋‹จ์ˆœํ™”ํ•˜๋Š” ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ 5๋‹จ๊ณ„์˜ ๊ณ„์ธต์  ๊ณต๊ฐ„ ์ธ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 15๊ฐœ ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, MLLM๋“ค์€ ๊ธฐ๋ณธ์ ์ธ ์ง€๊ฐ ๋Šฅ๋ ฅ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ ์ƒ์ง•์  ์ถ”๋ก , ์ธ๊ณผ ๊ด€๊ณ„ ์ถ”๋ก , ๊ณ„ํš ๋Šฅ๋ ฅ ๋“ฑ ๊ณ ์ฐจ์›์ ์ธ ๊ณต๊ฐ„ ์ธ์ง€์—์„œ๋Š” ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ์ธ๊ฐ„์˜ ๋ชฉํ‘œ ์ง€ํ–ฅ์ ์ธ ์ถ”์ƒํ™”์™€ ๋Œ€๋น„๋ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
MLLM์˜ ๊ณต๊ฐ„ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ๋‹ค์ฐจ์›์ ์ด๊ณ  ๊ณ„์ธต์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
MLLM์ด ์ง€๊ฐ ๊ธฐ๋ฐ˜ ๋Šฅ๋ ฅ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ๊ณ ์ฐจ์›์ ์ธ ์ƒ์ง•์  ์ถ”๋ก  ๋ฐ ๊ณ„ํš ๋Šฅ๋ ฅ์—์„œ ๋ถ€์กฑํ•˜๋‹ค๋Š” ์ ์„ ๋ช…ํ™•ํžˆ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ๊ณต๊ฐ„ ์ง€๋Šฅ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
MLLM์ด ํ‘œ๋ฉด์ ์ธ ์„ธ๋ถ€ ์‚ฌํ•ญ์— ๊ณผ๋„ํ•˜๊ฒŒ ์ง‘์ค‘ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์œผ๋ฉฐ, ์ธ๊ฐ„๊ณผ ๊ฐ™์€ ์ผ๊ด€๋œ ๊ณต๊ฐ„์  ์˜๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์ถ”์ƒํ™”ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘