Sign In

Margin-Adaptive Confidence Ranking for Reliable LLM Judgement

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Gaojie Jin, Yong Tao, Lijia Yu, Tianjin Huang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํŒ๋‹จ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ๊ธฐ์กด์˜ ๊ฐ€์ • ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ LLM์ด ์ธ๊ฐ„๊ณผ์˜ ํ•ฉ์˜ ๋ฐ ๋ถˆ์ผ์น˜ ์‚ฌ๋ก€๋ฅผ ์–ผ๋งˆ๋‚˜ ํ™•์‹  ์žˆ๊ฒŒ ๊ตฌ๋ถ„ํ•˜๋Š”์ง€๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์ฃผ์„์ž ๋‹ค์–‘์„ฑ๊ณผ ๋งˆ์ง„ ๊ธฐ๋ฐ˜ ๋žญํ‚น์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹ ๋ขฐ๋„ ์ถ”์ •๊ธฐ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜๊ณ , ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ‰๊ฐ€ ๋ชจ๋ธ์—์„œ ๋ชฉํ‘œ ํ•ฉ์˜ ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ•˜๋Š” ์„ฑ๊ณต๋ฅ ์„ ๋†’์ด๋Š” ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ์‹ ๋ขฐ๋„ ์ถ”์ •์€ heuristicํ•œ ์‹ ํ˜ธ์— ์˜์กดํ•˜๊ธฐ๋ณด๋‹ค ํ•™์Šต๋œ ์ „์šฉ ์ถ”์ •๊ธฐ๋ฅผ ํ†ตํ•ด ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋งˆ์ง„ ๊ธฐ๋ฐ˜ ๋žญํ‚น ์ ‘๊ทผ ๋ฐฉ์‹์€ LLM์ด ์ธ๊ฐ„๊ณผ์˜ ํ•ฉ์˜ ๋ฐ ๋ถˆ์ผ์น˜ ์‚ฌ๋ก€๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ํ™•์‹ ๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ์ด๋Š” ์ผ๋ฐ˜ํ™” ๋ณด์žฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ•™์Šต๋œ ์‹ ๋ขฐ๋„ ์ถ”์ •๊ธฐ๋Š” ๊ณ ์ • ์‹œํ€€์Šค ํ…Œ์ŠคํŠธ์— ํ†ตํ•ฉ๋  ๋•Œ ๋” ๋‚˜์€ ๋žญํ‚น ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•˜๊ณ  ์‹ ๋ขฐ๋„์™€ ๋ถˆ์ผ์น˜ ์œ„ํ—˜ ๊ฐ„์˜ ๋‹จ์กฐ ๊ด€๊ณ„๋ฅผ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ถ”์ •๊ธฐ ํ•™์Šต ์ ˆ์ฐจ๋Š” ๋งˆ์ง„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ ๋ขฐ๋„ ์ถ”์ •๊ธฐ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘