본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 불완전하고 다양한 편향을 가진 보상이 대규모 언어 모델(LLM)의 정렬에 부정적인 영향을 미치는 문제를 다룹니다. 보상의 다양한 편향을 '보상 불공정성'으로 정의하고, 각각의 편향에 대해 특별히 설계하지 않고도 효과적으로 완화하는 자원 배분 관점에서의 편향에 무관한 방법을 제안합니다. 보상을 배분할 자원으로 취급하여 유틸리티와 공정성 사이의 절충을 고려하는 자원 배분 문제로 선호도 학습을 모델링합니다. 공정성 규제와 공정성 계수라는 두 가지 방법을 제안하여 보상의 공정성을 달성하고, 검증 및 강화 학습 시나리오에 적용하여 공정한 보상 모델과 정책 모델을 각각 얻습니다. 실험 결과, 제안된 접근 방식이 LLM을 인간의 선호도에 더 공정하게 정렬시킨다는 것을 보여줍니다.