Sign In

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Created by
  • Haebom
Category
Empty

저자

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue

개요

본 논문은 시각 언어 모델(VLMs)의 텍스트 생성 품질 평가를 위한 새로운 지표인 HarmonicEval을 제안합니다. 기존 지표들이 특정 작업에 대한 전반적인 평가에 집중하는 것과 달리, HarmonicEval은 여러 기준에 대한 점수를 종합하여 하향식으로 전반적인 점수를 산출하는 참조 없는 포괄적인 평가 지표입니다. 또한, 4가지 다중 모드 작업에 걸쳐 18,000개의 전문가 인간 판단으로 구성된 Multi-task Multi-criteria Human Evaluation (MMHE) 데이터셋을 구축하여 HarmonicEval의 성능을 평가했습니다. 실험 결과, HarmonicEval은 기존 지표보다 인간 판단과 더 높은 상관관계를 보이며, 각 기준에 대한 수치 점수를 제공합니다.

시사점, 한계점

시사점:
다양한 작업에 적용 가능한 참조 없는 포괄적 VLM 평가 지표 제공
기존 지표보다 인간 판단과의 상관관계가 높음
각 기준별 수치 점수 제공을 통한 세부 분석 가능
MMHE 데이터셋을 통한 객관적인 평가 기준 제시
한계점:
MMHE 데이터셋이 특정 전문가 집단의 의견에 기반하여 일반화 가능성에 대한 추가 검증 필요
HarmonicEval의 다양한 VLM 아키텍처 및 작업 유형에 대한 일반화 성능에 대한 추가 연구 필요
새로운 평가 지표로서 장기간의 안정성 및 신뢰성 검증 필요
👍