본 논문은 인간 피드백 기반 강화 학습(RLHF)에서 일반화 가능한 보상 모델의 중요성을 강조하며, 기존 보상 모델들이 선택된 응답과 거절된 응답 간의 보상 차이를 증가시키는 데 초점을 맞춰 훈련되면서 프롬프트를 고려하지 않아 일반화 성능이 떨어지는 문제점을 지적합니다. 이를 해결하기 위해, 보상 값을 프롬프트와 무관한 보상과 프롬프트 관련 보상으로 분해하는 방법을 제안합니다. 정보 이론적 관점에서 추가 모델 없이 두 구성 요소를 추출하고, 프롬프트와 무관한 보상 값을 기반으로 데이터 샘플에 우선순위를 부여하는 새로운 보상 학습 알고리즘을 제시합니다. 장난감 예시를 통해 추출된 두 보상이 보상 모델의 두 부분을 효과적으로 특징짓는다는 것을 보여주고, 표준 평가를 통해 제안된 방법이 보상 모델의 정렬 성능과 일반화 능력을 향상시킨다는 것을 실험적으로 확인합니다.