희소 오토인코더(SAE)는 신경망의 내부 활성화의 희소하고 과다한 분해를 학습하여 신경망 표현을 추출하는 유망한 방법입니다. 그러나 기존의 SAE는 활성화 값만 고려하고 해당 활성화가 후속 계산에 미치는 영향은 고려하지 않고 훈련됩니다. 이는 특징을 학습하는 데 사용할 수 있는 정보를 제한하고, 작은 활성화 값으로 표현되지만 모델 출력에 강한 영향을 미치는 특징을 무시하는 방향으로 오토인코더의 편향을 초래합니다. 이를 해결하기 위해, 본 논문에서는 상위 k개의 활성화 함수를 수정하여 k개의 요소를 선택할 때 입력 활성화의 기울기를 사용하는 기울기 SAE(g-SAE)를 제시합니다. 주어진 희소성 수준에서 g-SAE는 네트워크를 통해 전파될 때 원래 네트워크 성능에 더 충실한 재구성을 생성합니다. 또한 g-SAE는 임의의 컨텍스트에서 모델을 조종하는 데 평균적으로 더 효과적인 잠재 변수를 학습한다는 증거를 발견했습니다. 활성화의 후속 효과를 고려함으로써, 본 연구는 신경망 특징의 이중적 특성, 즉 과거의 표현과 미래의 행동을 모두 활용합니다. 이전 방법들이 주로 전자에 초점을 맞춰 특징 발견 문제에 접근한 반면, g-SAE는 후자를 고려하는 방향으로 한 걸음 나아간 것입니다.