Sign In

Reverse-Engineering Model Editing on Language Models

Created by
  • Haebom
Category
Empty

์ €์ž

Zhiyu Sun, Minrui Luo, Yu Wang, Zhili Chen, Tianxing He

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ ํŽธ์ง‘ ๋ฐฉ๋ฒ•๋ก ์˜ ์ทจ์•ฝ์ ์„ ๋ฐํ˜€๋‚ด๊ณ , ์ด๋ฅผ ์—ญ์ด์šฉํ•˜์—ฌ ํŽธ์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต๊ตฌํ•˜๋Š” ๊ณต๊ฒฉ ๊ธฐ๋ฒ•์ธ KSTER๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. KSTER๋Š” ํŽธ์ง‘ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ์˜ ์ €๋žญํฌ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํŽธ์ง‘ ๋Œ€์ƒ ์ •๋ณด์™€ ๊ทธ ์˜๋ฏธ๋ก ์  ๋งฅ๋ฝ์„ ์„ฑ๊ณต์ ์œผ๋กœ ๋ณต๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด, ์ œ์•ˆ๋œ ๋ฐฉ์–ด ์ „๋žต์ธ '๋ถ€๋ถ„ ๊ณต๊ฐ„ ์œ„์žฅ(subspace camouflage)'์€ ํŽธ์ง‘ ์œ ์šฉ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ณต๊ตฌ ์œ„ํ—˜์„ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋ชจ๋ธ ํŽธ์ง‘ ๊ณผ์ •์ด ๋ฏผ๊ฐ ์ •๋ณด ์œ ์ถœ์˜ ์ƒˆ๋กœ์šด ๊ฒฝ๋กœ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ KSTER ๊ณต๊ฒฉ์€ ์ €๋žญํฌ ์—…๋ฐ์ดํŠธ๋ฅผ ์ด์šฉํ•œ ๋ชจ๋ธ ํŽธ์ง‘์˜ ๋ณด์•ˆ ์œ„ํ—˜์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
โ€ข
'๋ถ€๋ถ„ ๊ณต๊ฐ„ ์œ„์žฅ'๊ณผ ๊ฐ™์€ ๋ฐฉ์–ด ๊ธฐ๋ฒ•์€ ๋ชจ๋ธ ํŽธ์ง‘์˜ ๋ณด์•ˆ์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” LLM ํŽธ์ง‘์˜ ํˆฌ๋ช…์„ฑ ๋ฐ ๋ณด์•ˆ ๊ฐ•ํ™”๋ฅผ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ ํ•„์š”์„ฑ์„ ์ œ๊ธฐํ•˜๋ฉฐ, ์‹ค์„ธ๊ณ„ ์ ์šฉ ์‹œ ๋‹ค์–‘ํ•œ ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ๊ณ ๋ ค๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.
๐Ÿ‘