haebom
Sign In
The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด ์๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ๊ฐ ์ง๊ต ๊ฒฉ์ ๊ธฐ๋ฐ ๋ ์ด์์์ ์์กดํ์ฌ ๋ชจ๋ธ์ด ํ ์คํธ ๊ธฐ๋ฐ ์ขํ ์ถ๋ก ์ ์ง๋์น๊ฒ ์์กดํ๋ "Cartesian Shortcut" ์ทจ์ฝ์ ์ ๊ฐ์ง๊ณ ์์์ ์ง์ ํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ 53๊ฐ์ ์๊ฐ ์ถ๋ก ์์ ์ ๊ทน์ขํ ๊ณต๊ฐ์ผ๋ก ์ฌ๊ตฌ์ฑํ Polaris-Bench๋ฅผ ์ ์ํ๋ฉฐ, ์ต์ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MLLM)๋ค์ด ๊ทน์ขํ ํ๊ฒฝ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋จ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ํ์ฌ MLLM์ด ์ง์ ํ ํ ํด๋ก์ง ๋ถ๋ณ์ ์๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ถ์กฑํจ์ ๋๋ฌ๋ ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ์ฌ MLLM์ ์ง๊ต ์ขํ๊ณ์ ๊ตฌ์กฐ์ ํน์ฑ์ ์ด์ฉํ์ฌ ํ ์คํธ ๊ธฐ๋ฐ์ ์ถ๋ก ์ ํฌ๊ฒ ์์กดํ๊ณ ์์ด, ์ค์ ์๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ด ๊ณผ๋ํ๊ฐ๋ ์ ์์ต๋๋ค.
โข
๊ทน์ขํ ๊ณต๊ฐ์ผ๋ก ์ฌ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ๋ฅผ ํตํด MLLM์ ๊ทผ๋ณธ์ ์ธ ์๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ MLLM์ ํ ํด๋ก์ง ๋ถ๋ณ ์๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ, ํฅํ MLLM ๊ฐ๋ฐ์ ์ค์ํ ํจ์๋ฅผ ๊ฐ์ง๋๋ค.
โข
๊ทน์ขํ ๊ณต๊ฐ์์์ ์ฑ๋ฅ ์ ํ๊ฐ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ด ์ ์ง๋ ๋๋ ๋ฐ์ํ๋ค๋ ์ ์, ๋จ์ํ ์ขํ๊ณ ์ ํ์ผ๋ก ์ธํ ์ด๋ ค์์ด ์๋, ๊ณต๊ฐ์ ๊ด๊ณ ์ดํด์ ๋ณธ์ง์ ์ธ ๋ฌธ์ ์์ ์์ฌํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage