강화 학습 기반의 인간 피드백(RLHF)은 대규모 언어 모델(LLM)을 인간의 가치에 맞게 조정하는 핵심 패러다임이지만, 그 핵심인 보상 모델은 대체로 불투명하다. 본 논문에서는 기계적 분석을 통해 보상 모델을 해석하고 개선하기 위한 새로운 프레임워크인 Sparse Autoencoder For Enhanced Reward model (SAFER)을 제시한다. 희소 오토인코더(SAE)를 활용하여 보상 모델 활성화에서 인간이 해석할 수 있는 특징을 찾아내어 안전 관련 의사 결정에 대한 통찰력을 제공한다. SAFER를 안전 지향적 선호도 데이터 세트에 적용하고, 선택된 응답과 거부된 응답 간의 활성화 차이를 통해 개별 특징의 중요성을 정량화한다. 이러한 특징 수준의 신호를 사용하여, 표적 데이터 조작 및 노이즈 제거 전략을 설계한다. 실험 결과, SAFER는 일반적인 채팅 성능 저하 없이 최소한의 데이터 수정만으로 안전 정렬을 정확하게 저하시키거나 향상시킬 수 있음을 보여준다. 이 접근 방식은 중요한 LLM 정렬 작업에서 보상 모델을 해석, 감사 및 개선하는 데 기여한다.