Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

Created by
  • Haebom

저자

Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 복잡한 다단계 추론 능력 향상을 위해 프로세스 보상 모델(MM-PRM)을 제안한다. 기존 MLLM의 주요 한계점인 중간 추론 단계에 대한 세분화된 감독 부족을 해결하기 위해, 다양한 수학 추론 데이터로 훈련된 강력한 다중 모달 모델(MM-Policy)과 검증 가능한 답변을 포함하는 10,000개의 다중 모달 수학 문제로 구성된 MM-K12 데이터셋을 활용한다. 몬테 카를로 트리 탐색(MCTS) 기반 파이프라인을 통해 70만 개 이상의 단계별 주석을 자동으로 생성하고, 이를 이용하여 훈련된 MM-PRM은 Best-of-N 추론 설정에서 후보 추론 경로를 평가한다. 실험 결과, MM-PRM은 MM-K12 테스트 세트와 OlympiadBench, MathVista 등의 외부 벤치마크에서 모두 성능 향상을 보였다. 소프트 라벨, 작은 학습률, 경로 다양성이 PRM 성능 최적화에 효과적임을 확인하였으며, 프로세스 감독이 다중 모달 추론 시스템의 논리적 강건성 향상에 효과적인 도구임을 보여준다. 모든 코드와 데이터는 깃허브에서 공개한다.

시사점, 한계점

시사점:
MLLM의 다단계 추론 능력 향상을 위한 효과적인 프로세스 보상 모델(MM-PRM) 제시
MCTS 기반 자동화된 데이터 생성 방식을 통해 대규모 단계별 주석 데이터 확보
MM-K12 데이터셋 및 MM-PRM 모델 공개를 통한 연구 재현성 및 후속 연구 촉진
소프트 라벨, 작은 학습률, 경로 다양성이 PRM 성능 향상에 미치는 영향 분석
다양한 벤치마크에서의 성능 향상을 통해 MM-PRM의 우수성 검증
한계점:
MM-K12 데이터셋이 수학 문제에 국한되어 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요
MCTS 기반 데이터 생성 방식의 계산 비용 및 효율성 개선 필요
프로세스 보상 모델의 해석 가능성 및 신뢰성에 대한 추가 연구 필요
👍