본 논문은 언어 모델 간의 Kullback-Leibler (KL) divergence를 추정하는 문제를 다룹니다. KL divergence의 정확한 계산은 어렵기 때문에, 실제로는 샘플링 기반 추정량을 사용합니다. 기존의 Monte Carlo (MC) 추정량은 높은 분산을 가지고 음수 값을 가질 수 있다는 문제점이 있습니다. 본 논문에서는 Rao-Blackwellized 추정량을 제시하여, MC 추정량보다 분산이 작거나 같은 불편 추정량을 제공합니다. 감정 제어 미세 조정 실험을 통해 제안된 추정량이 더 안정적인 KL 추정치를 제공하고 분산을 크게 줄이는 것을 보였습니다. 또한, KL divergence 기울기의 Rao-Blackwellized 추정량을 유도하여, 더 안정적인 훈련과 보상 대 KL의 Pareto frontier에 더 자주 나타나는 모델을 생성합니다.