Sign In

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

Created by
  • Haebom
Category
Empty

저자

Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

개요

본 논문은 AI 행동을 인간의 선호도에 맞추는 데 중요한 역할을 하는 보상 모델(RM)의 두 가지 근본적인 문제점, 즉 (1) 텍스트와 이미지에 집중된 양상 불균형과 (2) 고정된 선호 쌍에 기반한 선호 경직성을 해결하고자 한다. 이를 위해, 텍스트, 이미지, 비디오, 오디오 및 3D를 포함한 5가지 양상에 걸쳐 9가지 작업을 다루는 최초의 옴니모달 RM 벤치마크인 Omni-RewardBench, 248K의 일반 선호 쌍과 69K의 instruction-tuning 쌍으로 구성된 다중 모달 선호도 데이터세트인 Omni-RewardData, 그리고 차별적 및 생성적 RM을 모두 포함하는 Omni-RewardModel을 제안한다.

시사점, 한계점

시사점:
다중 모달 (텍스트, 이미지, 비디오, 오디오, 3D)을 지원하는 옴니모달 보상 모델링에 대한 중요한 진전을 제시함.
Omni-RewardBench를 통해 옴니모달 RM의 평가 기준을 제공.
Omni-RewardData를 통해 옴니모달 RM 학습을 위한 데이터셋을 구축.
Omni-RewardModel을 통해 벤치마크에서 우수한 성능을 입증.
자유 형식 선호도를 지원하여 개인화된 선호도를 더 잘 캡처 가능.
한계점:
논문 자체에서 구체적인 한계점을 명시하지 않음. (논문의 요약 내용만 제시되었으므로, 구체적인 한계점에 대한 정보는 포함되어 있지 않음)
👍