Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Created by
  • Haebom

저자

Ruilin Luo, Zhuofan Zheng, Yifan Wang, Xinzhe Ni, Zicheng Lin, Songtao Jiang, Yiyao Yu, Chufan Shi, Ruihang Chu, Jin Zeng, Yujiu Yang

개요

본 논문은 다중 모드 수학 추론에서 프로세스 보상 모델(PRM)의 잠재력을 탐구하는 연구입니다. 기존의 단일 모드 LLMs에 비해 다중 모드 환경에서 PRM을 적용하는 데는 고품질 데이터 부족, 자동화된 프로세스 라벨링 부재, 보상 해킹 문제 등의 어려움이 존재합니다. 이를 해결하기 위해, 본 논문에서는 세 단계로 구성된 URSA 프레임워크를 제시합니다. 먼저, 대규모 다중 모드 사고 과정(CoT) 추론 데이터셋인 MMathCoT-1M을 구축하여 강력한 기반 MLLM인 URSA-8B를 학습시킵니다. 다음으로, 자동화된 프로세스를 통해 프로세스 감독 데이터를 생성하고, DualMath-1.1M을 활용하여 URSA-8B-RM을 학습시킵니다. 마지막으로, 다중 모드 PRM 기반 온라인 강화 학습 방법인 PS-GRPO를 제안하여 URSA-8B-PS-GRPO를 개발합니다. 실험 결과, URSA-8B-PS-GRPO는 6개의 벤치마크에서 Gemma3-12B와 GPT-4o를 평균 8.4%와 2.7% 개선된 성능을 보였습니다.

시사점, 한계점

시사점:
다중 모드 수학 추론에서 PRM의 효과를 최초로 입증.
고품질 대규모 다중 모드 CoT 데이터셋 MMathCoT-1M 구축.
자동화된 프로세스 감독 데이터 생성 방법 제시.
다중 모드 PRM 기반 온라인 강화 학습 방법 PS-GRPO 개발.
기존 SOTA 모델인 Gemma3-12B와 GPT-4o를 상회하는 성능 달성.
한계점:
고품질 다중 모드 추론 데이터의 부족은 여전히 제한 요소.
자동화된 프로세스 라벨링의 완벽성은 보장되지 않음.
다중 모드 환경에서의 보상 해킹 문제는 완전히 해결되지 않음.
URSA 프레임워크의 일반화 성능에 대한 추가 연구 필요.
👍