AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features
Created by
Haebom
저자
Xudong Zhu, Mohammad Mahdi Khalili, Zhihui Zhu
개요
본 논문은 대규모 언어 모델(LLM)의 해석 가능성을 위해 희소 자동 인코더(SAE)를 연구하며, 기존 SAE의 한계를 지적하고 새로운 SAE 변형인 AbsTopK를 제안한다. 기존 SAE는 비음수성을 강제하여 양방향 개념을 표현하는 데 제약이 있었으나, AbsTopK는 절대값을 기반으로 활성화를 선택하여 보다 풍부한 양방향 개념 표현을 가능하게 한다. 여러 LLM 및 태스크에 대한 실험을 통해 AbsTopK의 우수성을 입증하였다.
시사점, 한계점
•
시사점:
◦
기존 SAE의 근본적인 제약 사항(비음수성으로 인한 양방향 개념 표현의 어려움)을 발견하고, 이를 해결하는 새로운 SAE 변형인 AbsTopK를 제시함.
◦
AbsTopK는 LLM의 해석 가능성을 향상시키고, 단일 특징이 대조적인 개념을 인코딩하도록 함.
◦
다양한 LLM과 태스크에 대한 광범위한 실험을 통해 AbsTopK의 우수성을 입증함.
◦
지도 학습 방식인 Difference-in-Mean 방법과 동등하거나 더 나은 성능을 보임.