본 논문은 AI 행동을 인간의 선호도에 맞추는 데 중요한 역할을 하는 보상 모델(RM)의 두 가지 근본적인 문제점, 즉 (1) 텍스트와 이미지에 집중된 양상 불균형과 (2) 고정된 선호 쌍에 기반한 선호 경직성을 해결하고자 한다. 이를 위해, 텍스트, 이미지, 비디오, 오디오 및 3D를 포함한 5가지 양상에 걸쳐 9가지 작업을 다루는 최초의 옴니모달 RM 벤치마크인 Omni-RewardBench, 248K의 일반 선호 쌍과 69K의 instruction-tuning 쌍으로 구성된 다중 모달 선호도 데이터세트인 Omni-RewardData, 그리고 차별적 및 생성적 RM을 모두 포함하는 Omni-RewardModel을 제안한다.