Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

Created by
  • Haebom

저자

Qi Cao, Ruiyi Wang, Ruiyi Zhang, Sai Ashish Somayajula, Pengtao Xie

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 추론 성능 향상을 위한 도메인 가중치 재조정 훈련 프레임워크인 DreamPRM을 제안합니다. 기존의 과정 보상 모델(PRM)은 다중 모달 추론의 다양한 작업들로 인해 발생하는 훈련 및 테스트 세트 간의 분포 차이로 일반화 성능이 저하되는 문제점을 가지고 있습니다. DreamPRM은 이를 해결하기 위해 이중 수준 최적화를 사용하여 여러 데이터셋에 대한 미세 조정을 수행하고, 도메인 가중치를 통해 고품질 추론 신호를 우선시하며, 메타 학습 데이터셋을 통해 도메인 가중치를 업데이트하여 일반화 성능을 향상시킵니다. 실험 결과, DreamPRM은 다양한 다중 모달 추론 벤치마크에서 최첨단 MLLM의 성능을 향상시키고, 기존의 데이터 선택 방법 및 테스트 시간 스케일링 접근 방식보다 높은 정확도 향상을 보였습니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 추론 성능 향상에 효과적인 DreamPRM 프레임워크 제시
도메인 가중치 재조정 전략을 통해 데이터 품질 불균형 문제 해결
메타 학습 기반의 이중 수준 최적화를 통한 일반화 성능 향상
다양한 다중 모달 추론 벤치마크에서 SOTA 성능 달성
기존 데이터 선택 방법 및 테스트 시간 스케일링 방법보다 우수한 성능 입증
한계점:
DreamPRM의 성능 향상은 사용된 데이터셋의 품질과 다양성에 크게 의존할 수 있음. 데이터셋의 질이 낮을 경우 성능 향상이 제한적일 수 있음.
이중 수준 최적화 과정의 계산 비용이 높을 수 있음.
특정 도메인에 과적합될 가능성 존재. 더욱 넓은 범위의 다양한 도메인에 대한 실험이 필요함.
👍