본 논문은 에이전트 모델 정렬에서 선호도 피드백으로부터 보상을 학습하는 방법을 다룬다. 기존에는 이진 비교 방식의 선호도 피드백이 주로 사용되었지만, 본 논문은 다양한 유형의 인간 피드백을 활용하여 보상 학습의 효율성을 높이는 데 초점을 맞춘다. 여섯 가지 유형의 고품질 시뮬레이션 피드백을 생성하고, 이를 활용하여 보상 모델을 학습하고 강화 학습(RL)을 수행한다. 10개의 RL 환경에서 다양한 피드백 유형을 비교 분석하여, 다양한 피드백 유형이 강력한 보상 모델링 성능으로 이어질 수 있음을 실증적으로 보여준다. 이는 RLHF(Reinforcement Learning from Human Feedback)에서 다양한 피드백 유형의 활용 가능성을 보여주는 최초의 연구 중 하나이다.