Sign In

Limits of Spatial Imagery Reasoning in Frontier LLM Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Sergio Y. Hayashi, Nina S. T. Hirata

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด 3D ๋ชจ๋ธ ํšŒ์ „๊ณผ ๊ฐ™์€ ๊ณต๊ฐ„์  ์ถ”๋ก  ์ž‘์—…์— ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์™ธ๋ถ€ "์ด๋ฏธ์ง€ ๋ชจ๋“ˆ"์„ LLM์— ํ†ตํ•ฉํ•˜๋Š” "์ธ์ง€ ๋ณด์กฐ๊ธฐ"๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ œ์•ˆ๋œ ๋“€์–ผ ๋ชจ๋“ˆ ์•„ํ‚คํ…์ฒ˜๋Š” 62.5%์˜ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” LLM์ด 3D ๊ณต๊ฐ„ ์ƒํƒœ๋ฅผ ์™ธ๋ถ€ ๋ชจ๋“ˆ์— ์œ„์ž„ํ•˜๋”๋ผ๋„ ๊ทผ๋ณธ์ ์ธ ์‹œ๊ฐ-๊ณต๊ฐ„์  ์›ํ˜•์งˆ์˜ ๋ถ€์กฑ์œผ๋กœ ์ธํ•ด ์‹คํŒจํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์€ 3D ๋ชจ๋ธ ํšŒ์ „๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ๊ณต๊ฐ„ ์ถ”๋ก  ์ž‘์—…์—์„œ ์™ธ๋ถ€ ๋„๊ตฌ์˜ ๋„์›€์„ ๋ฐ›๋”๋ผ๋„ ์—ฌ์ „ํžˆ ์„ฑ๋Šฅ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ LLM์€ ๊นŠ์ด, ์›€์ง์ž„, ๋‹จ๊ธฐ ๋™์  ์˜ˆ์ธก๊ณผ ๊ฐ™์€ ๋‚ฎ์€ ์ˆ˜์ค€์˜ ๊ณต๊ฐ„ ์‹ ํ˜ธ๋ฅผ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋™์ ์œผ๋กœ ์‹œ๊ฐ์  ์ดˆ์ ์„ ์ „ํ™˜ํ•˜๋ฉฐ ์ถ”๋ก ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” LLM์ด ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ์ ์ธ ์‹œ๊ฐ-๊ณต๊ฐ„์  ์›ํ˜•์งˆ์„ ํ•™์Šตํ•˜๊ณ , ์ด๋ฏธ์ง€์™€ ์ƒ์ง•์ /์—ฐ์ƒ์  ์ •๋ณด๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ํ†ตํ•ฉํ•˜์—ฌ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ชจ์ƒ‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘