Sign In

QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Anthony G. Cohn, Robert E. Blackwell

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์งˆ์  ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ QSTRBench๋ฅผ ์ œ์•ˆํ•œ๋‹ค. QSTRBench๋Š” ๋‹ค์–‘ํ•œ ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๊ณ„์‚ฐ๋ฒ•(์  ๋Œ€์ˆ˜, ์•จ๋Ÿฐ์˜ ๊ตฌ๊ฐ„ ๋Œ€์ˆ˜, ์ง€์—ญ ์—ฐ๊ฒฐ ๊ณ„์‚ฐ๋ฒ• ๋“ฑ)์— ๋Œ€ํ•ด ํ•ฉ์„ฑ ์ถ”๋ก , ์—ญ๊ด€๊ณ„, ๊ฐœ๋…์  ์ด์›ƒ ๋“ฑ์— ๊ด€ํ•œ ์งˆ๋ฌธ์„ ํฌํ•จํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ชจ๋“  LLM์ด ๋ฌด์ž‘์œ„ ์ถ”์ธก๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ, ์–ด๋– ํ•œ ๋ชจ๋ธ๋„ ๋ชจ๋“  ์งˆ๋ฌธ์— ์ผ๊ด€๋˜๊ฒŒ ์ •๋‹ต์„ ๋งžํžˆ์ง€๋Š” ๋ชปํ–ˆ์œผ๋ฉฐ, ๊ณ„์‚ฐ๋ฒ•์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํŽธ์ฐจ๊ฐ€ ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ์งˆ์  ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
โ€ข
ํ˜„์žฌ ์ตœ์ฒจ๋‹จ LLM๋„ ๋ณต์žกํ•œ ์งˆ์  ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.
โ€ข
ํ–ฅํ›„ LLM์˜ ์งˆ์  ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.
โ€ข
๋ณธ ๋ฒค์น˜๋งˆํฌ๋Š” ๊ณต๊ฐœ๋˜์–ด ํ–ฅํ›„ ์—ฐ๊ตฌ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์ง€๋งŒ, ์•„์ง ๋ชจ๋“  ์งˆ์  ๊ณต๊ฐ„ ๋ฐ ์‹œ๊ฐ„ ์ถ”๋ก  ๊ณ„์‚ฐ๋ฒ•๊ณผ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํฌ๊ด„ํ•˜์ง€๋Š” ๋ชปํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ณต์žกํ•˜๊ณ  ๋™์ ์ธ ์ƒํ™ฉ์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋ฐ˜์˜ํ•˜์ง€๋Š” ๋ชปํ•œ๋‹ค.
๐Ÿ‘