본 논문은 대규모 언어 모델(LLM)의 사후 훈련에서 핵심적인 요소인 보상 모델(RM)을 효율적으로 학습하기 위한 SparseRM을 제안한다. SparseRM은 희소 자동 인코더(SAE)를 활용하여 LLM 표현에서 선호도 관련 정보를 추출하고, 이를 기반으로 가볍고 해석 가능한 보상 모델을 구축한다. SAE를 통해 선호도 관련 특징을 포착하는 해석 가능한 방향으로 LLM 표현을 분해하고, 각 방향으로의 투영을 통해 정렬 점수를 계산한다. 마지막으로, 간단한 보상 헤드가 이러한 점수를 집계하여 선호도 점수를 예측한다. 세 가지 선호도 모델링 작업에 대한 실험 결과, SparseRM은 대부분의 주류 RM보다 우수한 성능을 보이면서도 훈련 가능한 매개변수를 1% 미만으로 사용하며, 다운스트림 정렬 파이프라인에 원활하게 통합되어 효율적인 정렬 가능성을 보여준다.