SplInterp: Improving our Understanding and Training of Sparse Autoencoders
Created by
Haebom
저자
Jeremy Budd, Javier Ideami, Benjamin Macdowall Rynne, Keith Duggar, Randall Balestriero
개요
본 논문은 희소 자동 인코더(SAEs)의 이론적 이해를 높이기 위해 심층 학습의 스플라인 이론을 활용합니다. SAEs를 이 프레임워크에 위치시킴으로써, SAEs가 "k-means 자동 인코더"를 조각별 아핀으로 일반화하지만, 최적의 "k-means-esque 플러스 지역 주성분 분석(PCA)" 조각별 아핀 자동 인코더에 비해 해석성을 위해 정확성을 희생한다는 것을 발견했습니다. Power diagrams를 사용하여 (TopK) SAEs의 기본 기하학을 특징짓고, 견고한 이론적 기반과 MNIST 및 LLM 실험에서 유망한 실험 결과(특히 표본 효율성 및 LLM 설정에서 코드의 향상된 희소성)를 갖는 새로운 근접 교대 방법 SGD(PAM-SGD) 알고리즘을 개발했습니다. 모든 코드는 https://github.com/splInterp2025/splInterp 에서 사용할 수 있습니다.