haebom
Sign In
Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities
Created by
Haebom
Category
Empty
์ ์
Florian Dietz, William Wale, Oscar Gilg, Robert McCarthy, Felix Michalak, Gustavo Ewbank Rodrigues Danon, Miguelito de Guzman, Dietrich Klakow
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์จ๊ฒจ์ง ์ค์ผ(misalignment)์ ํ์งํ๋ ์ด๋ ค์์ ์ฃผ๋ชฉํ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด "๋ถํ ์ฑ๊ฒฉ ํ๋ จ(Split Personality Training, SPT)"์ด๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. SPT๋ ํ์์๋ ๋นํ์ฑ ์ํ๋ก ์ ์ง๋๋ ๋ณ๋์ '์ ์งํ ํ๋ฅด์๋'๋ฅผ LoRA ํ๋ผ๋ฏธํฐ๋ก ํ์ต์ํจ ํ, ๋ชจ๋ธ ์๋ต ์ ์ด๋ฅผ ํ์ฑํํ์ฌ ์ ์ฌ๋ ์ง์์ ๋๋ฌ๋ ๋๋ค. ์คํ ๊ฒฐ๊ณผ, SPT๋ Llama-3.3-70B ๋ชจ๋ธ์ 96% ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM์ ์จ๊ฒจ์ง ์ค์ผ ๋ฐ ์ ์ฌ ์ง์ ํ์ง๋ฅผ ์ํ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โข
์ธ๋ถ ๊ด์ฐฐ์์๊ฒ๋ ์ ๊ทผ ๋ถ๊ฐ๋ฅํ ๋ชจ๋ธ์ ๋ด๋ถ ํธํฅ ๋ฑ ์ ์ฌ ์ ๋ณด๋ฅผ ๋๋ฌ๋ผ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
SPT์ LoRA ์ด๋ํฐ ํฌ๊ธฐ, ํธ๋ฆฌ๊ฑฐ ๋ฌธ์์ด์ ๋ฏผ๊ฐ๋, ๋ค์ํ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ํ ํ์ฅ์ฑ ๋ฑ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage