본 논문은 모델 출력과 인간 선호도의 정렬을 보장하기 위해 성능 평가 지표의 질을 이해하는 것이 중요함을 강조합니다. 기존 지표들이 특정 영역에서는 우수하지만 모든 측면에서 우수하지 않다는 점을 지적하며, 인간 선호도의 다양한 측면에 지표를 체계적으로 보정할 필요성을 제기합니다. 이를 해결하기 위해, 본 논문은 다양한 모달리티의 생성 작업을 지도 학습 방식으로 평가하도록 설계된 보정된 메타 지표인 MetaMetrics를 제시합니다. MetaMetrics는 기존 지표들의 조합을 최적화하여 인간 선호도와의 정렬을 향상시킵니다. 다국어 및 다영역 시나리오에서 다양한 장점을 보여주며, 언어 및 비전 하위 작업 모두에서 유연성과 효과성을 입증합니다. 인간 선호도와 밀접하게 일치하며 확장성이 높고 어떤 애플리케이션에도 쉽게 통합될 수 있다는 장점을 가지고 있습니다. 따라서 다양한 상황에서 인간의 판단을 더 잘 반영하는 지표를 보장하여 생성 작업 평가를 개선하는 강력한 도구로 자리매김할 수 있습니다.