본 논문은 다중 모달 대규모 언어 모델(MLLM)의 추론 성능 향상을 위한 도메인 가중치 재조정 훈련 프레임워크인 DreamPRM을 제안합니다. 기존의 과정 보상 모델(PRM)은 다중 모달 추론의 다양한 작업들로 인해 발생하는 훈련 및 테스트 세트 간의 분포 차이로 일반화 성능이 저하되는 문제점을 가지고 있습니다. DreamPRM은 이를 해결하기 위해 이중 수준 최적화를 사용하여 여러 데이터셋에 대한 미세 조정을 수행하고, 도메인 가중치를 통해 고품질 추론 신호를 우선시하며, 메타 학습 데이터셋을 통해 도메인 가중치를 업데이트하여 일반화 성능을 향상시킵니다. 실험 결과, DreamPRM은 다양한 다중 모달 추론 벤치마크에서 최첨단 MLLM의 성능을 향상시키고, 기존의 데이터 선택 방법 및 테스트 시간 스케일링 접근 방식보다 높은 정확도 향상을 보였습니다.