The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models
Created by
Haebom
Category
Empty
저자
Zichao Li, Xueru Wen, Jie Lou, Yuqiu Ji, Yaojie Lu, Xianpei Han, Debing Zhang, Le Sun
개요
본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 중요한 역할을 하는 다중 모드 보상 모델(MM-RM)의 일반화 문제를 다룹니다. 기존 MM-RM은 주로 텍스트 기반의 단순 상관관계에 의존하여 훈련 데이터 분포 밖의 데이터에 대한 일반화 성능이 떨어지는 한계를 가지고 있습니다. 본 논문에서는 이 문제를 해결하기 위해 단순 상관관계에 대한 의존성을 줄이고 다중 모드 이해를 향상시키는 새로운 학습 알고리즘을 제시합니다. 이 알고리즘은 훈련 샘플의 가중치를 동적으로 조정하여 다중 모드 이해도를 높이고 단순 상관관계에 대한 의존도를 낮추는 방식으로 작동합니다. 실험 결과, 제시된 알고리즘은 일반화 성능, 하위 작업 성능 및 확장성을 크게 향상시키는 것으로 나타났습니다.