본 논문은 초인적 성능을 향해 발전하는 거대 언어 모델의 인간 가치 및 능력과의 정렬 문제를 다룬다. 약한 모델의 예측을 활용하여 강한 모델을 안내하는 약-강 일반화 접근 방식의 효율성은 약한 모델의 예측에 내재된 잡음과 부정확성에 의해 제한될 수 있다. 이를 해결하기 위해, 본 논문은 불완전한 약한 신호에 과적합될 위험이 있는 전방 KL 발산 대신 역 KL 발산을 사용하는 이론적으로 뒷받침되는 접근 방식을 제안한다. 역 KL 발산의 제로 포싱 효과는 높은 신뢰도의 예측을 우선시하여 신뢰할 수 없는 약한 감독의 영향을 효과적으로 완화한다. 이론적으로, 기존 경계를 확장하고 전방 및 역 KL 발산에 대한 더욱 엄격한 하한을 유도하여 역 KL이 전방 KL과 적어도 비슷한 보장을 달성한다는 것을 보여준다. 특히, 충분히 사전 훈련된 강력한 모델이 마지막 선형 계층에서 미세 조정될 때, 역 KL은 강력한 모델이 약한 감독자를 그들의 불일치의 크기만큼 능가하도록 보장한다. 실험적으로, 역 KL과 역 교차 엔트로피는 대부분의 설정에서 전방 KL과 표준 교차 엔트로피로 훈련된 모델보다 강력한 모델이 성공적으로 능가함을 보여주어 이러한 역 손실의 실질적인 이점을 강조한다.