Sign In

The Gordian Knot for VLMs: Diagrammatic Knot Reasoning as a Hard Benchmark

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Hao Liu, Jicheng Liu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ๋งค๋“ญ ๋‹ค์ด์–ด๊ทธ๋žจ์„ ์ดํ•ดํ•˜๊ณ  ์ถ”๋ก ํ•˜๋Š” ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ KnotBench๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. 85๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ด๋ฏธ์ง€์™€ 14๊ฐ€์ง€ ํƒœ์Šคํฌ๋ฅผ ํ†ตํ•ด, VLM์ด ๋งค๋“ญ์˜ ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ์ธ์‹ํ•˜์ง€๋งŒ ๊ทธ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”๋ก ํ•˜๋Š” ๋ฐ๋Š” ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ๋“ค๋„ ๋ฌด์ž‘์œ„ ์ˆ˜์ค€์— ๋จธ๋ฌด๋ฅด๊ฑฐ๋‚˜ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋Š” ๋“ฑ, VLM์˜ ์ธ์ง€-์—ฐ์‚ฐ ๊ฐ„๊ทน์„ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ˜„์žฌ VLM์€ ๋งค๋“ญ ๋‹ค์ด์–ด๊ทธ๋žจ์˜ ์‹œ๊ฐ์  ํŠน์ง•์€ ํŒŒ์•…ํ•˜์ง€๋งŒ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋งค๋“ญ์˜ ์›€์ง์ž„์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ฑฐ๋‚˜ ์ถ”๋ก ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋Šฅ๋ ฅ์€ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
โ€ข
'์‚ฌ๊ณ  ๊ณผ์ •'์„ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ์‹์ด VLM์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ๋Š” ํ•˜์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ฌด์ž‘์œ„ ์ˆ˜์ค€์„ ํฌ๊ฒŒ ๋ฒ—์–ด๋‚˜์ง€ ๋ชปํ•˜๋Š” ํƒœ์Šคํฌ๊ฐ€ ๋งŽ์•„ VLM์˜ ๊ทผ๋ณธ์ ์ธ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” VLM์˜ ๋งค๋“ญ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, 64K ์ถœ๋ ฅ ํ† ํฐ ์˜ˆ์‚ฐ์ด๋ผ๋Š” ์ œํ•œ๊ณผ ์‹ค์ œ ๋งค๋“ญ ์ด๋ก ์˜ ๋ณต์žก์„ฑ์„ ์™„์ „ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘