From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders

Created by

Haebom

저자

Yifan Luo, Yang Zhan, Jiedong Jiang, Tianyang Liu, Mingrui Wu, Zhennan Zhou, Bin Dong

💡 개요

본 논문은 기존 Sparse Autoencoder (SAE)가 단일 의미의 특징을 효과적으로 추출하지만, 개별적으로 학습되어 언어의 계층적 구조를 포착하지 못하는 한계를 지적합니다. 이를 극복하기 위해, 제안된 Hierarchical Sparse Autoencoder (HSAE)는 일련의 SAE를 공동으로 학습하고 특징 간의 부모-자식 관계를 파악하여 언어의 내재된 계층적 구조를 모델링합니다. HSAE는 구조 제약 손실 함수와 무작위 특징 교란 기법을 통해 부모-자식 특징 간의 정렬을 강화하며, 실험 결과 다양한 LLM에서 의미론적으로 유의미한 계층 구조를 성공적으로 복구하고 기존 SAE의 재구성 충실도와 해석 가능성을 유지함을 입증했습니다.

🔑 시사점 및 한계

•

LLM의 표현 공간에서 자연어의 내재된 계층적 구조를 체계적으로 발견하고 분석할 수 있는 새로운 도구를 제시합니다.

•

특징 간의 관계를 명시적으로 학습함으로써 LLM의 내부 작동 방식에 대한 보다 깊이 있는 이해를 가능하게 합니다.

•

복잡한 언어 현상, 예를 들어 "특징 분할(feature splitting)"과 같이 계층적 구조가 중요한 경우에 대한 탐구를 촉진합니다.

•

제안된 HSAE 모델의 계산 복잡성 증가와 최적의 계층 구조를 결정하는 방법에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage