본 논문은 사전 훈련된 Sparse Autoencoder(SAE)가 특정 도메인의 특징을 포착하지 못하는 한계를 해결하기 위해 잔차 학습 기법을 제시합니다. 기존 SAE의 재구성 오차를 모델링하는 보조 SAE를 훈련하여 주 모델이 놓친 특징을 보완합니다. 추론 단계에서 두 모델의 출력을 합산하여 다양한 특정 도메인에서 LLM 교차 엔트로피 및 설명된 분산 지표를 개선합니다. 이 방법은 기존 SAE의 성능을 유지하면서 특정 도메인 지식을 효율적으로 통합하여, 특정 도메인에 대한 SAE의 해석력을 선택적으로 향상시킵니다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 SAE의 해석력을 특정 도메인에 맞춰 효율적으로 향상시키는 새로운 방법 제시.