Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preference-Based Learning in Audio Applications: A Systematic Analysis

Created by
  • Haebom
Category
Empty

저자

Aaron Broukhim, Yiran Shen, Prithviraj Ammanabrolu, Nadir Weibel

개요

본 논문은 오디오 생성 모델의 평가에서 선호도 학습(preference learning)의 활용이 미미하다는 점을 지적하며, 관련 연구들을 체계적으로 분석한다. 약 500편의 논문을 PRISMA 가이드에 따라 분석한 결과, 단 30편(6%)만이 오디오 작업에 선호도 학습을 적용하고 있었다. 분석 결과, 2021년 이전에는 감정 인식에 전통적인 랭킹 기법(rankSVM)이 사용되었으며, 이후에는 생성 작업에 현대적인 RLHF 프레임워크가 활용되는 변화가 나타났다. 주요 발견 사항으로는 (1) 합성, 자동, 인간 선호도를 결합한 다차원 평가 전략의 등장, (2) 전통적인 지표(WER, PESQ)와 인간 판단 간의 일관성 부족, (3) 보상 신호를 결합한 다단계 학습 파이프라인의 수렴 등이 있다.

시사점, 한계점

시사점:
선호도 학습은 자연스러움과 음악성과 같은 주관적인 품질을 포착하는 데 유망하다.
다차원 평가 전략과 RLHF 프레임워크의 활용은 오디오 생성 모델 평가의 새로운 방향을 제시한다.
한계점:
표준화된 벤치마크, 고품질 데이터 세트 부족.
오디오 특유의 시간적 요소가 선호도 학습 프레임워크에 미치는 영향에 대한 체계적인 연구 부족.
전통적인 지표와 인간 판단 간의 일관성 부족 문제.
👍