Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Created by

Haebom

저자

Zeyu Chen, Huanjin Yao, Ziwang Zhao, Min Yang

💡 개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)을 평가자로 사용하는 시스템의 신뢰성을 평가하기 위한 새로운 능력 중심 벤치마크인 M-JudgeBench를 제안합니다. 이 벤치마크는 추론 방식, 응답 길이, 모델 간 변동성을 포괄하는 10가지 세부 작업으로 평가를 분해합니다. 또한, 데이터 생성 프레임워크인 Judge-MCTS를 통해 다양한 정확도와 길이의 쌍별 추론 궤적을 생성하고, 이를 활용한 M-Judger 모델을 개발하여 기존 벤치마크 및 M-JudgeBench에서 우수성을 입증합니다.

🔑 시사점 및 한계

•

MLLM 평가자의 신뢰성을 측정하기 위한 능력 중심 평가 프레임워크의 중요성을 강조합니다.

•

Pairwise Chain-of-Thought (CoT) 비교, 길이 편향 회피, 과정 오류 탐지와 같은 구체적인 평가 항목을 통해 MLLM 평가자의 미묘한 약점을 진단할 수 있는 방법을 제시합니다.

•

MCTS 기반 데이터 생성 프레임워크를 통해 실제 평가 상황과 유사한 다양한 데이터셋을 구축하고, 이를 바탕으로 성능이 향상된 MLLM 평가 모델을 개발할 수 있음을 보여줍니다.

•

본 연구는 MLLM 평가 모델의 일반적인 성능 향상에 기여하지만, 특정 도메인이나 복잡한 추론 작업에 대한 MLLM 평가자의 한계를 완전히 극복하지는 못했을 수 있습니다.

PDF 보기

Made with Slashpage