본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 인간의 다면적인 의사결정 과정을 효과적으로 모델링하는 새로운 강화 학습 방법을 제안합니다. 기존 RLHF 접근 방식이 분류 또는 회귀와 같은 단일 작업으로 인간 추론을 단순화하는 것과 달리, 본 논문에서는 분류 및 회귀 모델 모두를 활용하여 보상 함수를 추론하는 방법을 제시합니다. 학습 가능한 가중치를 도입하여 두 모델의 기여도를 균형 있게 조정함으로써 인간 의사결정의 불확실성을 포착하고, 모델이 상황에 따라 전략을 유연하게 조정할 수 있도록 합니다. 합성 인간 평가를 사용한 실험 결과, 제안된 방법이 기존 평가 기반 RL 방법보다 우수하며, 경우에 따라 기존 RL 방법을 능가하는 성능을 보임을 확인했습니다.