RLHF에서 KL 발산 손실을 사용하는 방법의 구현 방식을 분석하여, 'k_n as reward'와 'k_n as loss' 두 가지 구현 스타일을 연결하는 통일된 프레임워크를 제시합니다. 이 프레임워크를 통해 Reverse KL (RKL) 정규화의 원리를 밝히고, on-policy 조건에서 'k_2 as loss'가 'k_1 in reward'와 gradient-equivalent함을 증명합니다. 또한, 'k_3 as loss'가 편향된 근사치임을 보이고, off-policy 구현에서 발생할 수 있는 편향을 수정하는 방법을 제시합니다.