Aligning Text-to-Music Evaluation with Human Preferences
Created by
Haebom
Category
Empty
저자
Yichen Huang, Zachary Novack, Koichi Saito, Jiatong Shi, Shinji Watanabe, Yuki Mitsufuji, John Thickstun, Chris Donahue
개요
본 논문은 생성 음향 텍스트-음악(TTM) 모델의 평가에 있어 기존의 Frechet Audio Distance (FAD)에 의존하는 방식의 한계를 지적하고, 보다 효과적인 평가 지표를 제시하는 연구입니다. 기존 지표들의 문제점을 분석하기 위해 네 가지의 합성 메타 평가와 최초의 오픈소스 기반 인간 선호도 데이터셋인 MusicPrefs를 활용했습니다. 실험 결과, 기존 지표들은 음악적 요구사항을 효과적으로 포착하지 못하고 인간의 지각과의 상관관계 또한 약하다는 것을 밝혔습니다. 이에, 자기지도 학습 기반 오디오 임베딩 모델의 표현을 사용하는 새로운 지표인 MAUVE Audio Divergence (MAD)를 제안하고, MAD가 기존 지표들보다 음악적 요구사항과 인간 선호도를 더 잘 반영함을 보였습니다 (MAD의 평균 순위 상관관계 0.84 vs FAD의 0.49, MusicPrefs 상관관계 0.62 vs 0.14).