Sign In

The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ์‹œ๊ฐ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ง๊ต ๊ฒฉ์ž ๊ธฐ๋ฐ˜ ๋ ˆ์ด์•„์›ƒ์— ์˜์กดํ•˜์—ฌ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ขŒํ‘œ ์ถ”๋ก ์— ์ง€๋‚˜์น˜๊ฒŒ ์˜์กดํ•˜๋Š” "Cartesian Shortcut" ์ทจ์•ฝ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ 53๊ฐœ์˜ ์‹œ๊ฐ ์ถ”๋ก  ์ž‘์—…์„ ๊ทน์ขŒํ‘œ ๊ณต๊ฐ„์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•œ Polaris-Bench๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ตœ์‹  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)๋“ค์ด ๊ทน์ขŒํ‘œ ํ™˜๊ฒฝ์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ MLLM์ด ์ง„์ •ํ•œ ํ† ํด๋กœ์ง€ ๋ถˆ๋ณ€์˜ ์‹œ๊ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•จ์„ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ˜„์žฌ MLLM์€ ์ง๊ต ์ขŒํ‘œ๊ณ„์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ์ด์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ์ถ”๋ก ์— ํฌ๊ฒŒ ์˜์กดํ•˜๊ณ  ์žˆ์–ด, ์‹ค์ œ ์‹œ๊ฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์ด ๊ณผ๋Œ€ํ‰๊ฐ€๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ทน์ขŒํ‘œ ๊ณต๊ฐ„์œผ๋กœ ์žฌ๊ตฌ์„ฑ๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด MLLM์˜ ๊ทผ๋ณธ์ ์ธ ์‹œ๊ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” MLLM์˜ ํ† ํด๋กœ์ง€ ๋ถˆ๋ณ€ ์‹œ๊ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋ฉฐ, ํ–ฅํ›„ MLLM ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ํ•จ์˜๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
โ€ข
๊ทน์ขŒํ‘œ ๊ณต๊ฐ„์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ์ด ์œ ์ง€๋  ๋•Œ๋„ ๋ฐœ์ƒํ•œ๋‹ค๋Š” ์ ์€, ๋‹จ์ˆœํžˆ ์ขŒํ‘œ๊ณ„ ์ „ํ™˜์œผ๋กœ ์ธํ•œ ์–ด๋ ค์›€์ด ์•„๋‹Œ, ๊ณต๊ฐ„์  ๊ด€๊ณ„ ์ดํ•ด์˜ ๋ณธ์งˆ์ ์ธ ๋ฌธ์ œ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘