Sign In

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Jiarong Liang, Max Ku, Ka-Hei Hui, Ping Nie, Wenhu Chen

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ๋ฌผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ๊ธฐ์กด์˜ ์ธ์‹ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์š”๊ตฌํ•˜๋Š” VisPhyWorld๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ชจ๋ธ์ด ์‹œ๊ฐ์  ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ๋‚ด์žฌํ•œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•จ์œผ๋กœ์จ, ์ถ”๋ก ๋œ ์„ธ๊ณ„ ํ‘œํ˜„์„ ์ง์ ‘ ๊ฒ€์ฆํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ฉฐ ๋ฐ˜์ฆํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌผ๋ฆฌ์  ์ถ”๋ก ๊ณผ ๋ Œ๋”๋ง์„ ๋ถ„๋ฆฌํ•˜๊ณ , VisPhyBench๋ผ๋Š” 209๊ฐœ์˜ ํ‰๊ฐ€ ์žฅ๋ฉด์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์™ธํ˜• ์žฌ๊ตฌ์„ฑ ๋ฐ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ์›€์ง์ž„ ์žฌํ˜„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
MLLM์˜ ๋ฌผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ, ๊ธฐ์กด์˜ ์ธ์‹ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋ณด๋‹ค ๊ทผ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ์ดํ•ด๋„๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ํ•™์Šตํ•œ ๋ฌผ๋ฆฌ์  ์ง€์‹์„ ์ง์ ‘์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋ฉฐ ๋ฐ˜์ฆํ•  ์ˆ˜ ์žˆ๋Š” ํˆฌ๋ช…ํ•˜๊ณ  ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ํ‰๊ฐ€ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ์ตœ์‹  MLLM๋“ค์ด ์‹œ๋งจํ‹ฑ ์žฅ๋ฉด ์ดํ•ด์—๋Š” ๊ฐ•์ ์„ ๋ณด์ด๋‚˜, ์ •ํ™•ํ•œ ๋ฌผ๋ฆฌ์  ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”๋ก  ๋ฐ ์ผ๊ด€๋œ ๋ฌผ๋ฆฌ ์—ญํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—๋Š” ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋ฒค์น˜๋งˆํฌ๋Š” ์„ฑ๊ณต์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๋น„๋””์˜ค๋ฅผ 97.7% ์ƒ์„ฑํ•˜์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ณต์žกํ•˜๊ณ  ๋ฏธ๋ฌ˜ํ•œ ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์— ๋Œ€ํ•œ MLLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋ฉฐ, ๋” ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™๊ณผ ๋ณต์žก์„ฑ์„ ํฌํ•จํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ํ™•์žฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘