희소 자동 인코더(SAE)를 사용하여 모델의 잠재 공간을 분해하는 비지도 학습 방법을 제안합니다. 이를 통해 레이블이 지정된 데이터 없이도 스티어링(모델의 출력을 원하는 개념으로 유도하는 것)과 같은 유용한 애플리케이션이 가능해집니다. 기존 방법은 활성화되는 입력 토큰을 분석하여 스티어링을 위한 SAE 특징을 식별합니다. 그러나 최근 연구에 따르면 활성화만으로는 특징이 모델 출력에 미치는 영향을 완전히 설명할 수 없다는 점이 강조되었습니다. 본 연구에서는 모델의 입력 패턴을 주로 포착하는 입력 특징과 모델의 출력에 사람이 이해할 수 있는 영향을 미치는 출력 특징의 두 가지 유형의 특징을 구분합니다. 이러한 유형의 특징을 특징짓고 찾기 위해 입력 점수와 출력 점수를 제안하고, 두 점수가 모두 높은 값을 가지는 특징은 거의 공존하지 않음을 보여줍니다. 이러한 결과는 실제적인 의미를 갖습니다. 출력 점수가 낮은 특징을 필터링한 후 SAE로 스티어링할 때 2~3배의 성능 향상을 얻어 지도 학습 방법과 경쟁력을 갖게 됩니다.