본 논문은 인간 피드백 기반 강화학습(RLHF)이 생성형 AI를 정렬하는 데 유망하지만 심각하고 체계적인 불일치를 야기할 수 있다는 경험적 증거를 제시합니다. 이는 평가자 피드백이 AI의 출력에 영향을 받을 수 있는 후속 결과 예측(예측)에 의존하여 Goodhart 법칙 역학을 유발하기 때문이라고 가정합니다. 반대로, 이론적 분석을 통해 평가자 피드백을 후속 관찰(사후 분석)에 조건화하면 잠재적으로 손상된 예측으로부터 정렬 신호를 분리하여 이러한 효과를 억제한다는 것을 보여줍니다. 관찰된 결과가 AI의 자체 세계 모델에서 샘플링된 경우에도 결과가 유지됩니다. 이러한 통찰력을 바탕으로, 평가자에게 피드백을 구하기 전에 타당한 시뮬레이션된 결과를 제시하는 인간 피드백 기반 강화학습(RLHS)을 소개합니다. 제어된 컨설팅 유형 실험과 사용자 연구에서 RLHF보다 우수한 정렬을 얻는 온라인(PPO) 및 오프라인(DPO) 대규모 언어 모델 미세 조정에 RLHS를 시연합니다. TruthfulQA 벤치마크에서 사후 평가를 수행하고 단일 작업 미세 조정 후에도 RLHF 불일치와 RLHS 정렬이 상당히 다른 설정으로 이전됨을 발견합니다.