# Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations

### 저자

Lucy Farnik, Tim Lawson, Conor Houghton, Laurence Aitchison

### 개요

본 논문은 대규모 언어 모델(LLM)의 잠재 활성화의 희소하고 사람이 해석할 수 있는 표현을 발견하는 데 성공적으로 사용되어 온 희소 오토인코더(SAE)의 한계를 지적하며, LLM의 표현이 아닌 계산 과정 자체를 이해하고자 하는 목표를 제시합니다.  SAE가 계산 과정 이해에 기여하는 정도는 불분명하며, 잠재 활성화만 희소화할 뿐 계산 자체를 희소화하도록 설계되지 않았기 때문입니다.  이를 해결하기 위해, 본 논문은 주어진 모델 구성 요소의 입력 및 출력 활성화뿐만 아니라 이들을 연결하는 계산(형식적으로는 Jacobian)에서도 희소성을 생성하는 Jacobian SAE(JSAE)를 제안합니다.  LLM에서 Jacobian을 계산하는 것은 계산상 어려움이 있으므로, 효율적인 Jacobian 계산 방법을 제시하는 것이 본 논문의 주요 기술적 기여 중 하나입니다.  실험 결과, JSAE는 기존 SAE와 거의 동등한 수준의 LLM 성능을 유지하면서 상당한 수준의 계산 희소성을 추출하는 것으로 나타났습니다. 또한, MLP가 JSAE 기저에서 근사적으로 선형일 때 Jacobian이 계산 희소성에 대한 합리적인 근사치임을 보여줍니다. 마지막으로, JSAE는 사전 훈련된 LLM에서 무작위 LLM보다 더 높은 수준의 계산 희소성을 달성하는 것을 보여주며, 이는 계산 그래프의 희소성이 LLM이 학습을 통해 얻는 속성임을 시사합니다.

### 시사점, 한계점

- **시사점:**

    - JSAE는 LLM의 계산 과정을 이해하는 새로운 접근 방식을 제시합니다.

    - JSAE는 기존 SAE와 비슷한 성능을 유지하면서 계산 희소성을 효과적으로 추출합니다.

    - LLM이 학습 과정에서 계산 그래프의 희소성을 학습한다는 것을 시사합니다.

    - Jacobian이 계산 희소성의 합리적인 근사치임을 보여줍니다.

- **한계점:**

    - JSAE의 효율적인 Jacobian 계산 방법은 여전히 계산 비용이 상당할 수 있습니다.

    - 본 연구는 주로 MLP와 Transformer에 집중하였으며, 다른 유형의 LLM에 대한 일반화 가능성은 추가 연구가 필요합니다.

    - JSAE가 계산 희소성을 얼마나 잘 해석할 수 있는지에 대한 추가적인 분석이 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2502.18147)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).