Sign In

BASIL: Bayesian Assessment of Sycophancy in LLMs

Created by
  • Haebom
Category
Empty

์ €์ž

Katherine Atwell, Pedram Heydari, Anthony Sicilia, Malihe Alikhani

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋™์กฐ(sycophancy, ์ง€๋‚˜์น˜๊ฒŒ ๋™์˜ํ•˜๊ฑฐ๋‚˜ ์•„์ฒจํ•˜๋Š” ํ–‰๋™) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฒ ์ด์ฆˆ ํ™•๋ฅ ๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋™์กฐ์ ์ธ ๋ฏฟ์Œ ๋ณ€ํ™”๋ฅผ ํ•ฉ๋ฆฌ์ ์ธ ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ํ–‰๋™ ๋ณ€ํ™”์™€ ๋ถ„๋ฆฌํ•˜์—ฌ ์ธก์ •ํ•˜๊ณ , ์‹ค์ œ์ ์ธ ๊ธฐ์ค€(ground truth)์ด ์—†๋Š” ์ƒํ™ฉ์—์„œ๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ LLM์— ๋Œ€ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ๋™์กฐ์ ์ธ ๋ฏฟ์Œ ๋ณ€ํ™”์˜ ์กด์žฌ๋ฅผ ํ™•์ธํ•˜๊ณ , ๋ชจ๋ธ์˜ ๋ฏฟ์Œ ์—…๋ฐ์ดํŠธ ๋ถˆ์ผ์น˜ ์ •๋„๋ฅผ ์ •๋Ÿ‰ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ๋™์กฐ์ ์ธ ํ–‰๋™์„ ํ•ฉ๋ฆฌ์ ์ธ ์ •๋ณด ์ฒ˜๋ฆฌ์™€ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ฐ๊ด€์ ์œผ๋กœ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์‹ค์ œ ๋ฐ์ดํ„ฐ๋‚˜ ๋ช…ํ™•ํ•œ ์ •๋‹ต์ด ์—†๋Š” ์ฃผ๊ด€์ ์ด๊ณ  ๋ถˆํ™•์‹คํ•œ ์ž‘์—…์—์„œ๋„ LLM์˜ ๋™์กฐ์„ฑ ๋ฌธ์ œ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฒ ์ด์ฆˆ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ํ›„์ฒ˜๋ฆฌ ๋ณด์ •, ๋ฏธ์„ธ ์กฐ์ • ์ „๋žต(SFT, DPO)์ด LLM์˜ ๋™์กฐ์„ฑ์œผ๋กœ ์ธํ•œ ๋น„์ผ๊ด€์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋™์กฐ์„ฑ์ด LLM์˜ ํ•ฉ๋ฆฌ์„ฑ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์€ ๋ชจ๋ธ์ด ์ฆ๊ฑฐ๋ฅผ ๊ณผ๋Œ€ํ‰๊ฐ€ํ•˜๋Š”์ง€ ๊ณผ์†Œํ‰๊ฐ€ํ•˜๋Š”์ง€์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๋” ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ LLM๊ณผ ๋ณต์žกํ•œ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘