๋ณธ ์ฐ๊ตฌ๋ ์๋ก ๋ค๋ฅธ LLM ์ํคํ
์ฒ ๊ฐ์ ๋ชจ๋ธ ์ฐจ์ด๋ฅผ ์๋ณํ๋ ๋ชจ๋ธ ๋ํ(model diffing) ๊ธฐ์ ์ ์ต์ด๋ก ์ ์ฉํ๊ณ , ์ด๋ฅผ ์ํด Dedicated Feature Crosscoders (DFCs)๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. DFCs๋ ํน์ ๋ชจ๋ธ์ ๊ณ ์ ํ ํน์ง์ ๋ถ๋ฆฌํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋น์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก Qwen, Deepseek, Llama, GPT ๋ฑ ๋ค์ํ LLM ๊ฐ์ ์ค๊ตญ ๊ณต์ฐ๋น ๊ด๋ จ์ฑ, ๋ฏธ๊ตญ ์ค์ฌ์ฃผ์, ์ ์๊ถ ๊ฑฐ๋ถ ๋ฉ์ปค๋์ฆ๊ณผ ๊ฐ์ ์๋ฏธ ์๋ ํ๋ ์ฐจ์ด๋ฅผ ๋ฐ๊ฒฌํ์ต๋๋ค.