haebom
Sign In
From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders
Created by
Haebom
Category
Empty
์ ์
Yifan Luo, Yang Zhan, Jiedong Jiang, Tianyang Liu, Mingrui Wu, Zhennan Zhou, Bin Dong
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด Sparse Autoencoder (SAE)๊ฐ ๋จ์ผ ์๋ฏธ์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ์ง๋ง, ๊ฐ๋ณ์ ์ผ๋ก ํ์ต๋์ด ์ธ์ด์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ ํ๊ณ๋ฅผ ์ง์ ํฉ๋๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ ์๋ Hierarchical Sparse Autoencoder (HSAE)๋ ์ผ๋ จ์ SAE๋ฅผ ๊ณต๋์ผ๋ก ํ์ตํ๊ณ ํน์ง ๊ฐ์ ๋ถ๋ชจ-์์ ๊ด๊ณ๋ฅผ ํ์ ํ์ฌ ์ธ์ด์ ๋ด์ฌ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. HSAE๋ ๊ตฌ์กฐ ์ ์ฝ ์์ค ํจ์์ ๋ฌด์์ ํน์ง ๊ต๋ ๊ธฐ๋ฒ์ ํตํด ๋ถ๋ชจ-์์ ํน์ง ๊ฐ์ ์ ๋ ฌ์ ๊ฐํํ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ๋ค์ํ LLM์์ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์๋ฏธํ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ณต๊ตฌํ๊ณ ๊ธฐ์กด SAE์ ์ฌ๊ตฌ์ฑ ์ถฉ์ค๋์ ํด์ ๊ฐ๋ฅ์ฑ์ ์ ์งํจ์ ์ ์ฆํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM์ ํํ ๊ณต๊ฐ์์ ์์ฐ์ด์ ๋ด์ฌ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ฐ๊ฒฌํ๊ณ ๋ถ์ํ ์ ์๋ ์๋ก์ด ๋๊ตฌ๋ฅผ ์ ์ํฉ๋๋ค.
โข
ํน์ง ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ตํจ์ผ๋ก์จ LLM์ ๋ด๋ถ ์๋ ๋ฐฉ์์ ๋ํ ๋ณด๋ค ๊น์ด ์๋ ์ดํด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
โข
๋ณต์กํ ์ธ์ด ํ์, ์๋ฅผ ๋ค์ด "ํน์ง ๋ถํ (feature splitting)"๊ณผ ๊ฐ์ด ๊ณ์ธต์ ๊ตฌ์กฐ๊ฐ ์ค์ํ ๊ฒฝ์ฐ์ ๋ํ ํ๊ตฌ๋ฅผ ์ด์งํฉ๋๋ค.
โข
์ ์๋ HSAE ๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก์ฑ ์ฆ๊ฐ์ ์ต์ ์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage