로그인

Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations

작성자
  • Haebom
카테고리
비어 있음

저자

Lucy Farnik, Tim Lawson, Conor Houghton, Laurence Aitchison

개요

본 논문은 대규모 언어 모델(LLM)의 잠재 활성화의 희소하고 사람이 해석할 수 있는 표현을 발견하는 데 성공적으로 사용되어 온 희소 오토인코더(SAE)의 한계를 지적하며, LLM의 표현이 아닌 계산 과정 자체를 이해하고자 하는 목표를 제시합니다. SAE가 계산 과정 이해에 기여하는 정도는 불분명하며, 잠재 활성화만 희소화할 뿐 계산 자체를 희소화하도록 설계되지 않았기 때문입니다. 이를 해결하기 위해, 본 논문은 주어진 모델 구성 요소의 입력 및 출력 활성화뿐만 아니라 이들을 연결하는 계산(형식적으로는 Jacobian)에서도 희소성을 생성하는 Jacobian SAE(JSAE)를 제안합니다. LLM에서 Jacobian을 계산하는 것은 계산상 어려움이 있으므로, 효율적인 Jacobian 계산 방법을 제시하는 것이 본 논문의 주요 기술적 기여 중 하나입니다. 실험 결과, JSAE는 기존 SAE와 거의 동등한 수준의 LLM 성능을 유지하면서 상당한 수준의 계산 희소성을 추출하는 것으로 나타났습니다. 또한, MLP가 JSAE 기저에서 근사적으로 선형일 때 Jacobian이 계산 희소성에 대한 합리적인 근사치임을 보여줍니다. 마지막으로, JSAE는 사전 훈련된 LLM에서 무작위 LLM보다 더 높은 수준의 계산 희소성을 달성하는 것을 보여주며, 이는 계산 그래프의 희소성이 LLM이 학습을 통해 얻는 속성임을 시사합니다.

시사점, 한계점

시사점:
JSAE는 LLM의 계산 과정을 이해하는 새로운 접근 방식을 제시합니다.
JSAE는 기존 SAE와 비슷한 성능을 유지하면서 계산 희소성을 효과적으로 추출합니다.
LLM이 학습 과정에서 계산 그래프의 희소성을 학습한다는 것을 시사합니다.
Jacobian이 계산 희소성의 합리적인 근사치임을 보여줍니다.
한계점:
JSAE의 효율적인 Jacobian 계산 방법은 여전히 계산 비용이 상당할 수 있습니다.
본 연구는 주로 MLP와 Transformer에 집중하였으며, 다른 유형의 LLM에 대한 일반화 가능성은 추가 연구가 필요합니다.
JSAE가 계산 희소성을 얼마나 잘 해석할 수 있는지에 대한 추가적인 분석이 필요합니다.
👍