대규모 언어 모델(LLM)이 다양한 모드의 데이터와 상호작용하는 빈도가 증가함에 따라, 인간의 선호도에 LLM을 맞추는 데 다중 모드 보상 모델(MM-RM)이 중요해지고 있습니다. 하지만 기존 데이터셋으로 훈련된 MM-RM은 단일 모드의 허위 상관관계(주로 훈련 분포 내의 텍스트 전용 지름길)에 의존하기 때문에 분포 외 데이터에 일반화하는 데 어려움을 겪는다는 것을 발견했습니다. 이 문제를 해결하기 위해, 훈련 샘플의 가중치를 동적으로 재조정하고, 더 나은 다중 모드 이해를 향해 분포를 이동시키며, 단일 모드 허위 상관관계에 대한 의존성을 줄임으로써 이 문제를 완화하는 지름길 인식 MM-RM 학습 알고리즘을 제시합니다. 실험 결과, 일반화, 하류 작업 성능 및 확장성이 크게 향상되어 다중 모드 보상 모델링을 위한 더욱 강력한 프레임워크를 구축했습니다.