언어 모델 간의 Kullback--Leibler (KL) 발산 추정은 강화 학습, 해석 가능성, 지식 증류 등 다양한 분야에서 활용된다. 그러나 임의의 두 언어 모델 간의 정확한 KL 발산을 계산하는 것은 어렵기 때문에, 실무에서는 샘플링 기반 추정기를 사용한다. 기존의 몬테카를로 (MC) 추정기는 unbiased estimate를 제공하지만, 분산이 크고 음수 값을 출력하는 문제가 있다. 본 논문에서는 Rao--Blackwellized 추정기를 제안하며, 이는 unbiased이며 MC 추정기보다 분산이 작거나 같다. 감성 제어 미세 조정 실험에서 제안하는 추정기가 더욱 안정적인 KL 추정치를 제공하고 분산을 크게 줄이는 것을 확인했다. 또한, KL 발산의 기울기에 대한 유사한 Rao--Blackwellized 추정기를 유도하여, 더 안정적인 학습을 가능하게 하고 MC 추정기를 사용하여 훈련된 모델보다 보상과 KL 간의 파레토 경계면에 더 자주 위치하는 모델을 생성한다.