본 논문은 시각 언어 모델(VLMs)의 텍스트 생성 품질 평가를 위한 새로운 지표인 HarmonicEval을 제안합니다. 기존 지표들이 특정 작업에 대한 전반적인 평가에 집중하는 것과 달리, HarmonicEval은 여러 기준에 대한 점수를 종합하여 하향식으로 전반적인 점수를 산출하는 참조 없는 포괄적인 평가 지표입니다. 또한, 4가지 다중 모드 작업에 걸쳐 18,000개의 전문가 인간 판단으로 구성된 Multi-task Multi-criteria Human Evaluation (MMHE) 데이터셋을 구축하여 HarmonicEval의 성능을 평가했습니다. 실험 결과, HarmonicEval은 기존 지표보다 인간 판단과 더 높은 상관관계를 보이며, 각 기준에 대한 수치 점수를 제공합니다.