Daily Arxiv

์ „ ์„ธ๊ณ„์—์„œ ๋ฐœ๊ฐ„๋˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋Š” ํŽ˜์ด์ง€ ์ž…๋‹ˆ๋‹ค.
๋ณธ ํŽ˜์ด์ง€๋Š” Google Gemini๋ฅผ ํ™œ์šฉํ•ด ์š”์•ฝ ์ •๋ฆฌํ•˜๋ฉฐ, ๋น„์˜๋ฆฌ๋กœ ์šด์˜ ๋ฉ๋‹ˆ๋‹ค.
๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ์€ ์ €์ž ๋ฐ ํ•ด๋‹น ๊ธฐ๊ด€์— ์žˆ์œผ๋ฉฐ, ๊ณต์œ  ์‹œ ์ถœ์ฒ˜๋งŒ ๋ช…๊ธฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification

Created by
  • Haebom
Category
Empty

์ €์ž

Paul He, Yinya Huang, Mrinmaya Sachan, Zhijing Jin

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ธ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž, LLM์ด ์ƒ์„ฑํ•œ ์ธ๊ณผ ํ‘œํ˜„์‹์ด ์ฃผ์–ด์ง„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„๋กœ๋ถ€ํ„ฐ do-calculus ๋ฐ ํ™•๋ฅ  ์ด๋ก  ๊ทœ์น™์— ๋”ฐ๋ผ ๋„์ถœ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ฒ€์ฆํ•˜๋Š” ๊ธฐํ˜ธ ๊ฒ€์ฆ๊ธฐ 'DoVerifier'๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DoVerifier๋Š” ํ‘œ๋ฉด์ ์ธ ์ฐจ์ด๋กœ ์ธํ•ด ํ‹€๋ ธ๋‹ค๊ณ  ๊ฐ„์ฃผ๋  ์ˆ˜ ์žˆ๋Š” ์ •๋‹ต์„ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ณต๊ตฌํ•˜์—ฌ, LLM์˜ ์ธ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด๋‹ค ์—„๊ฒฉํ•˜๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ์ธ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€์˜ ์ •ํ™•์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋‹จ์ˆœํ•œ ๋ฌธ์ž์—ด ๋งค์นญ์„ ๋„˜์–ด, ์ธ๊ณผ ์ถ”๋ก ์˜ ํ˜•์‹์  ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ฒ€์ฆ๊ธฐ๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ LLM์˜ ์˜๋ฏธ๋ก ์  ์ •ํ™•์„ฑ์„ ๋” ์ž˜ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ๋Š” ์ฃผ์–ด์ง„ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„์— ๋Œ€ํ•œ ๊ฒ€์ฆ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, LLM์ด ์Šค์Šค๋กœ ์ธ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์ˆ˜์ •ํ•˜๋Š” ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋Š” ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘