생성된 노래의 미적 품질을 평가하는 것은 음악적 지각의 다차원적인 특성 때문에 어렵습니다. 본 연구에서는 (1) 보완적인 세그먼트 및 트랙 레벨 표현을 얻기 위한 다중 소스 다중 스케일 특징 추출, (2) 훈련 데이터를 풍부하게 하기 위한 계층적 오디오 증강 전략, (3) 정확한 점수 매기기와 신뢰할 수 있는 최고 노래 식별을 위한 회귀 및 순위 손실을 통합하는 하이브리드 훈련 목표를 결합한 강력한 음악 미적 평가 프레임워크를 제안합니다. ICASSP 2026 SongEval 벤치마크 실험에서 제안하는 접근 방식이 상관 관계 및 최고 등급 지표에서 기준선 방법을 일관되게 능가함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 소스, 다중 스케일 특징 추출, 계층적 오디오 증강, 하이브리드 훈련 목표의 조합을 통해 생성된 음악의 미적 품질 평가 성능 향상.
◦
ICASSP 2026 SongEval 벤치마크에서 기존 방법들을 능가하는 우수한 성능 입증.
•
한계점:
◦
구체적인 한계점은 논문 요약에서 명시되지 않음. (예: 특정 음악 장르에서의 편향, 계산 비용 등)