본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에 대한 형식적인 불가능성 결과를 증명합니다. 제한된 질의 예산을 가진 잘못 지정된 환경에서, RLHF 스타일 학습자는 교정 오라클에 접근하지 않는 한 감소할 수 없는 성능 격차 Omega(γ)를 겪습니다. 정보 이론적 증명을 통해 엄격한 하한선을 제시하고 최소한의 교정 오라클이 격차를 없애기에 충분함을 보여줍니다. 소규모 실증적 예시와 정렬 규칙(머피의 법칙) 목록은 많은 관찰된 정렬 실패가 이러한 구조적 메커니즘과 일치함을 나타냅니다. 본 연구 결과는 머피의 격차를 RLHF의 진단적 한계이자 교정 및 인과적 선호도 확인에 대한 미래 연구를 위한 지침으로 자리매김합니다.