Sign In

Evaluating Robustness of Reasoning Models on Parameterized Logical Problems

Created by
  • Haebom
Category
Empty

์ €์ž

Naim Es-sebbani, Esteban Marquer, Yakoub Salhi, Zied Bouraoui

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ํ‘œ์ค€ SAT ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋ฌธ์ œ์˜ ํ‘œ๋ฉด์ ์ธ ์–ด๋ ค์›€๊ณผ ์‹ค์ œ ๋งŒ์กฑ ๊ฐ€๋Šฅ์„ฑ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ตฌ์กฐ์  ํ˜„์ƒ์„ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ, ์—ฐ๊ตฌ์ง„์€ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ ๊ตฌ์กฐ์  2-CNF ๊ณต์‹ ๋ชจ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ 2-SAT ์ง„๋‹จ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋Š” ํ•จ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด ๋งŒ์กฑ ๊ฐ€๋Šฅ์„ฑ์„ ํŠน์ง•์ง“๊ณ  ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ถ•์„ ๋”ฐ๋ผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ๊ณผ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ LLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ๊ธฐ์˜ ๊ฒฌ๊ณ ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ณ , ๊ตฌ์กฐ์  ๊ฐœ์ž…์— ๋Œ€ํ•œ ์ทจ์•ฝ์„ฑ์„ ๋ฐํ˜€๋ƒ…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ๊ธฐ๋Š” ๊ตฌ์กฐ์  ํŠน์„ฑ์— ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋ฉฐ, ํ‘œ๋ฉด์ ์ธ ํ†ต๊ณ„๋งŒ์œผ๋กœ๋Š” ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์šด ์ทจ์•ฝ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
โ€ข
๊ตฌ์กฐ์ ์œผ๋กœ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋œ ๋ฒค์น˜๋งˆํฌ๋Š” LLM ์ถ”๋ก ๊ธฐ์˜ ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ๊ณผ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ์ง„๋‹จํ•˜๋Š” ๋ฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ๋Š” LLM ์ถ”๋ก ๊ธฐ์˜ ๊ฒฌ๊ณ ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด์ง€๋งŒ, ๋” ๋ณต์žกํ•œ ๋…ผ๋ฆฌ ๋ฌธ์ œ ๋ฐ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋กœ ํ™•์žฅํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘