Al analizar las implementaciones de la pérdida por divergencia de KL en RLHF, proponemos un marco unificado que conecta los dos estilos de implementación de "k_n como recompensa" y "k_n como pérdida". Este marco ilustra el principio de regularización de KL inversa (RKL) y demuestra que "k_2 como pérdida" es equivalente en gradiente a "k_1 en recompensa" en condiciones de política. Además, demostramos que "k_3 como pérdida" es una aproximación sesgada y proponemos un método para corregir el sesgo que puede surgir en implementaciones fuera de política.