Sign In

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Created by
  • Haebom
Category
Empty

저자

Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

개요

본 논문은 과학 문제 해결 시 오류를 빈번하게 보이는 다중 모달 대규모 언어 모델(MLLM)의 추론 과정의 타당성 평가를 위한 벤치마크인 ProJudgeBench를 제시합니다. ProJudgeBench는 4개의 과학 분야를 아우르는 2,400개의 테스트 사례와 50,118개의 단계별 레이블로 구성되어 있으며, 각 단계는 인간 전문가에 의해 정확성, 오류 유형 및 설명이 세심하게 주석 처리되어 있습니다. 본 논문은 ProJudgeBench를 통해 오픈소스 모델과 독점 모델 간의 성능 차이를 밝히고, 이러한 차이를 해소하기 위해 대규모 지시어 튜닝 데이터셋인 ProJudge-173k와 동적 이중 단계 미세 조정 전략을 제안합니다. 제안된 방법은 오픈소스 모델의 프로세스 평가 능력을 크게 향상시키며, 모든 자원은 향후 신뢰할 수 있는 다중 모달 프로세스 평가 연구를 촉진하기 위해 공개될 예정입니다.

시사점, 한계점

시사점:
MLLM 기반 프로세스 평가의 신뢰성 문제를 해결하기 위한 최초의 종합적인 벤치마크인 ProJudgeBench 제시.
오픈소스 모델과 독점 모델 간의 성능 격차를 명확히 제시.
오픈소스 모델의 프로세스 평가 능력을 향상시키는 ProJudge-173k 및 동적 이중 단계 미세 조정 전략 제안.
향후 신뢰할 수 있는 다중 모달 프로세스 평가 연구를 위한 자원 공개.
한계점:
ProJudgeBench의 과학 분야 및 난이도 수준 다양성이 제한적일 수 있음. (명시적으로 언급되지는 않았으나, 추후 연구를 통해 개선될 여지가 있음)
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요. (명시적으로 언급되지는 않았으나, 추후 연구를 통해 검증될 필요가 있음)
👍