Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations

작성자

Haebom

카테고리

비어 있음

저자

Lucy Farnik, Tim Lawson, Conor Houghton, Laurence Aitchison

개요

본 논문은 대규모 언어 모델(LLM)의 잠재 활성화의 희소하고 사람이 해석할 수 있는 표현을 발견하는 데 성공적으로 사용되어 온 희소 오토인코더(SAE)의 한계를 지적하며, LLM의 표현이 아닌 계산 과정 자체를 이해하고자 하는 목표를 제시합니다. SAE가 계산 과정 이해에 기여하는 정도는 불분명하며, 잠재 활성화만 희소화할 뿐 계산 자체를 희소화하도록 설계되지 않았기 때문입니다. 이를 해결하기 위해, 본 논문은 주어진 모델 구성 요소의 입력 및 출력 활성화뿐만 아니라 이들을 연결하는 계산(형식적으로는 Jacobian)에서도 희소성을 생성하는 Jacobian SAE(JSAE)를 제안합니다. LLM에서 Jacobian을 계산하는 것은 계산상 어려움이 있으므로, 효율적인 Jacobian 계산 방법을 제시하는 것이 본 논문의 주요 기술적 기여 중 하나입니다. 실험 결과, JSAE는 기존 SAE와 거의 동등한 수준의 LLM 성능을 유지하면서 상당한 수준의 계산 희소성을 추출하는 것으로 나타났습니다. 또한, MLP가 JSAE 기저에서 근사적으로 선형일 때 Jacobian이 계산 희소성에 대한 합리적인 근사치임을 보여줍니다. 마지막으로, JSAE는 사전 훈련된 LLM에서 무작위 LLM보다 더 높은 수준의 계산 희소성을 달성하는 것을 보여주며, 이는 계산 그래프의 희소성이 LLM이 학습을 통해 얻는 속성임을 시사합니다.