본 논문은 언어 모델 간의 Kullback-Leibler (KL) divergence를 추정하는 방법에 대해 다룬다. KL divergence는 RLHF, 해석성, 지식 증류 등 다양한 응용 분야에서 활용되지만, 두 임의의 언어 모델 간의 정확한 KL divergence를 계산하는 것은 불가능하다. 따라서, 실제로는 샘플링 기반 추정기를 사용하는데, 일반적인 Monte Carlo (MC) 추정기는 높은 분산을 가지며 음수 값을 출력하는 문제가 있다. 본 논문에서는 Rao-Blackwellized 추정기를 제시하여, 기존 MC 추정기보다 분산을 줄이고 더 안정적인 KL divergence 추정값을 제공함을 보인다. 실험적으로 감정 제어 미세 조정에서 KL 추정의 안정성을 높이고 분산을 크게 감소시키는 것을 보여주며, KL divergence 기울기의 Rao-Blackwellized 추정기를 유도하여 더 안정적인 훈련과 보상 대 KL의 Pareto frontier에 더 자주 나타나는 모델을 생성함을 보여준다.