본 논문은 오디오 생성 모델의 평가에서 선호도 학습(preference learning)의 활용이 미미하다는 점을 지적하며, 관련 연구들을 체계적으로 분석한다. 약 500편의 논문을 PRISMA 가이드에 따라 분석한 결과, 단 30편(6%)만이 오디오 작업에 선호도 학습을 적용하고 있었다. 분석 결과, 2021년 이전에는 감정 인식에 전통적인 랭킹 기법(rankSVM)이 사용되었으며, 이후에는 생성 작업에 현대적인 RLHF 프레임워크가 활용되는 변화가 나타났다. 주요 발견 사항으로는 (1) 합성, 자동, 인간 선호도를 결합한 다차원 평가 전략의 등장, (2) 전통적인 지표(WER, PESQ)와 인간 판단 간의 일관성 부족, (3) 보상 신호를 결합한 다단계 학습 파이프라인의 수렴 등이 있다.