Sign In

Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

Created by
  • Haebom
Category
Empty

์ €์ž

Xinyan Jiang, Ninghao Liu, Di Wang, Lijie Hu

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด์˜ ๋‹จ์ผ ํ™•๋ฅ  ๊ธฐ๋ฐ˜ LLM ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์ถ”๋ก ์˜ ๊ตฌ์กฐ์  ์—ญํ•™์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋ก ์ ์œผ๋กœ ์ •๋ฆฝ๋œ ๊ธฐํ•˜ํ•™์  ์šด๋™ํ•™์„ ํ™œ์šฉํ•˜๋Š” TRACED ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ๊ณผ์ •์„ ์ง„ํ–‰๋„(๋ณ€์œ„)์™€ ์•ˆ์ •์„ฑ(๊ณก๋ฅ )์œผ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ, ์˜ฌ๋ฐ”๋ฅธ ์ถ”๋ก ์€ ๋†’์€ ์ง„ํ–‰๋„์™€ ์•ˆ์ •์ ์ธ ๊ถค์ ์œผ๋กœ, ํ™˜๊ฐ์€ ๋‚ฎ์€ ์ง„ํ–‰๋„์™€ ๋ถˆ์•ˆ์ •ํ•œ ํŒจํ„ด์œผ๋กœ ๊ตฌ๋ถ„ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ถ”๋ก  ๊ณผ์ •์˜ ๊ธฐํ•˜ํ•™์  ์ดํ•ด: LLM์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๋‹จ์ˆœํžˆ ๊ฒฐ๊ณผ๊ฐ’์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๊ธฐํ•˜ํ•™์  ๊ถค์ ์œผ๋กœ ๋ถ„์„ํ•จ์œผ๋กœ์จ ์ถ”๋ก ์˜ ์งˆ์„ ์ธก์ •ํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ™˜๊ฐ ํ˜„์ƒ ํƒ์ง€ ๋ฐ ๋ถ„๋ฅ˜: ์ง„ํ–‰๋„์™€ ์•ˆ์ •์„ฑ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ํ™˜๊ฐ ํ˜„์ƒ์„ ํšจ๊ณผ์ ์œผ๋กœ ํƒ์ง€ํ•˜๊ณ , ๊ทธ ์›์ธ์„ '๋ง์„ค์ž„ ๋ฃจํ”„(Hesitation Loops)'์™€ 'ํ™•์‹  ์ถ•์ (Certainty Accumulation)'๊ณผ ๊ฐ™์€ ๋ฌผ๋ฆฌ์  ๊ฐœ๋…์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ™•์žฅ์„ฑ ๋ฐ ํ•ด์„๋ ฅ: ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ๊ณผ ๋›ฐ์–ด๋‚œ ๊ฐ•๊ฑด์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•˜๊ณ  LLM์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฐฉ์‹์„ ๋ณด๋‹ค ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ณ ์ฐจ์› ์ถ”๋ก  ๋ฐ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ์…‹ ์ ์šฉ: ํ˜„์žฌ ์ œ์‹œ๋œ ๊ธฐํ•˜ํ•™์  ๋ถ„์„์ด 2์ฐจ์› ๋˜๋Š” 3์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ ๊ถค์ ์œผ๋กœ ์‹œ๊ฐํ™”๋˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋”์šฑ ๋ณต์žกํ•˜๊ณ  ๊ณ ์ฐจ์›์ ์ธ ์ถ”๋ก  ๊ณผ์ •์— ๋Œ€ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘