Sign In

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Created by
  • Haebom
Category
Empty

μ €μž

Zeyu Chen, Huanjin Yao, Ziwang Zhao, Min Yang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)을 ν‰κ°€μžλ‘œ μ‚¬μš©ν•˜λŠ” μ‹œμŠ€ν…œμ˜ 신뒰성을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ λŠ₯λ ₯ 쀑심 벀치마크인 M-JudgeBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” μΆ”λ‘  방식, 응닡 길이, λͺ¨λΈ κ°„ 변동성을 ν¬κ΄„ν•˜λŠ” 10κ°€μ§€ μ„ΈλΆ€ μž‘μ—…μœΌλ‘œ 평가λ₯Ό λΆ„ν•΄ν•©λ‹ˆλ‹€. λ˜ν•œ, 데이터 생성 ν”„λ ˆμž„μ›Œν¬μΈ Judge-MCTSλ₯Ό 톡해 λ‹€μ–‘ν•œ 정확도와 길이의 μŒλ³„ μΆ”λ‘  ꢀ적을 μƒμ„±ν•˜κ³ , 이λ₯Ό ν™œμš©ν•œ M-Judger λͺ¨λΈμ„ κ°œλ°œν•˜μ—¬ κΈ°μ‘΄ 벀치마크 및 M-JudgeBenchμ—μ„œ μš°μˆ˜μ„±μ„ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLM ν‰κ°€μžμ˜ 신뒰성을 μΈ‘μ •ν•˜κΈ° μœ„ν•œ λŠ₯λ ₯ 쀑심 평가 ν”„λ ˆμž„μ›Œν¬μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
Pairwise Chain-of-Thought (CoT) 비ꡐ, 길이 편ν–₯ νšŒν”Ό, κ³Όμ • 였λ₯˜ 탐지와 같은 ꡬ체적인 평가 ν•­λͺ©μ„ 톡해 MLLM ν‰κ°€μžμ˜ λ―Έλ¬˜ν•œ 약점을 진단할 수 μžˆλŠ” 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
MCTS 기반 데이터 생성 ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 μ‹€μ œ 평가 상황과 μœ μ‚¬ν•œ λ‹€μ–‘ν•œ 데이터셋을 κ΅¬μΆ•ν•˜κ³ , 이λ₯Ό λ°”νƒ•μœΌλ‘œ μ„±λŠ₯이 ν–₯μƒλœ MLLM 평가 λͺ¨λΈμ„ κ°œλ°œν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” MLLM 평가 λͺ¨λΈμ˜ 일반적인 μ„±λŠ₯ ν–₯상에 κΈ°μ—¬ν•˜μ§€λ§Œ, νŠΉμ • λ„λ©”μΈμ΄λ‚˜ λ³΅μž‘ν•œ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ MLLM ν‰κ°€μžμ˜ ν•œκ³„λ₯Ό μ™„μ „νžˆ κ·Ήλ³΅ν•˜μ§€λŠ” λͺ»ν–ˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘