Sign In

From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders

Created by
  • Haebom
Category
Empty

์ €์ž

Yifan Luo, Yang Zhan, Jiedong Jiang, Tianyang Liu, Mingrui Wu, Zhennan Zhou, Bin Dong

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด Sparse Autoencoder (SAE)๊ฐ€ ๋‹จ์ผ ์˜๋ฏธ์˜ ํŠน์ง•์„ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ถœํ•˜์ง€๋งŒ, ๊ฐœ๋ณ„์ ์œผ๋กœ ํ•™์Šต๋˜์–ด ์–ธ์–ด์˜ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์ œ์•ˆ๋œ Hierarchical Sparse Autoencoder (HSAE)๋Š” ์ผ๋ จ์˜ SAE๋ฅผ ๊ณต๋™์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ํŠน์ง• ๊ฐ„์˜ ๋ถ€๋ชจ-์ž์‹ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ์–ธ์–ด์˜ ๋‚ด์žฌ๋œ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. HSAE๋Š” ๊ตฌ์กฐ ์ œ์•ฝ ์†์‹ค ํ•จ์ˆ˜์™€ ๋ฌด์ž‘์œ„ ํŠน์ง• ๊ต๋ž€ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ถ€๋ชจ-์ž์‹ ํŠน์ง• ๊ฐ„์˜ ์ •๋ ฌ์„ ๊ฐ•ํ™”ํ•˜๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ ๋‹ค์–‘ํ•œ LLM์—์„œ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋ณต๊ตฌํ•˜๊ณ  ๊ธฐ์กด SAE์˜ ์žฌ๊ตฌ์„ฑ ์ถฉ์‹ค๋„์™€ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ์œ ์ง€ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ํ‘œํ˜„ ๊ณต๊ฐ„์—์„œ ์ž์—ฐ์–ด์˜ ๋‚ด์žฌ๋œ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๊ณ  ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๋„๊ตฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํŠน์ง• ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šตํ•จ์œผ๋กœ์จ LLM์˜ ๋‚ด๋ถ€ ์ž‘๋™ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๋ณด๋‹ค ๊นŠ์ด ์žˆ๋Š” ์ดํ•ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณต์žกํ•œ ์–ธ์–ด ํ˜„์ƒ, ์˜ˆ๋ฅผ ๋“ค์–ด "ํŠน์ง• ๋ถ„ํ• (feature splitting)"๊ณผ ๊ฐ™์ด ๊ณ„์ธต์  ๊ตฌ์กฐ๊ฐ€ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ์— ๋Œ€ํ•œ ํƒ๊ตฌ๋ฅผ ์ด‰์ง„ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ HSAE ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ ์ฆ๊ฐ€์™€ ์ตœ์ ์˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘