Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling

Created by
  • Haebom

저자

Jingjing Tang, Xin Wang, Zhe Zhang, Junichi Yamagishi, Geraint Wiggins, George Fazekas

개요

본 논문은 악보로부터 표현력 있는 오디오 연주를 생성하는 문제를 다룹니다. 기존의 음악 연주 합성 파이프라인은 악보로부터 표현력 있는 연주 MIDI를 생성한 후, MIDI를 오디오로 합성하는 두 단계 방식을 따릅니다. 하지만 합성 모델은 다양한 MIDI 소스, 음악 스타일 및 녹음 환경에서 일반화하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 원래 제로샷 개인화 텍스트 음성 합성을 위해 설계된 VALLE 프레임워크를 바탕으로 한 신경 코덱 언어 모델인 MIDI-VALLE를 제안합니다. MIDI-to-audio 합성을 위해, 참조 오디오 연주와 해당 MIDI를 조건으로 하는 아키텍처를 개선했습니다. 이전 TTS 기반 시스템이 피아노 롤에 의존하는 것과 달리, MIDI-VALLE은 MIDI와 오디오를 모두 이산 토큰으로 인코딩하여 피아노 연주의 보다 일관되고 강력한 모델링을 가능하게 합니다. 또한, 광범위하고 다양한 피아노 연주 데이터셋으로 학습하여 모델의 일반화 능력을 향상시켰습니다. 평가 결과, MIDI-VALLE은 최첨단 기준 모델을 크게 능가하여 ATEPP 및 Maestro 데이터셋에서 Frechet Audio Distance를 75% 이상 낮추었습니다. 청취 테스트에서 MIDI-VALLE은 기준 모델에 비해 202표 대 58표를 얻어 다양한 연주 MIDI 입력에 대한 합성 품질과 일반화 능력이 향상되었음을 보여줍니다.

시사점, 한계점

시사점:
VALLE 프레임워크를 기반으로 한 MIDI-to-audio 합성 모델 MIDI-VALLE을 제시하여 기존 방식의 한계를 극복.
참조 오디오와 MIDI를 조건으로 사용하여 합성 품질 향상 및 다양한 스타일/환경에 대한 일반화 능력 향상.
이산 토큰 인코딩을 통해 MIDI와 오디오의 일관된 모델링 달성.
ATEPP 및 Maestro 데이터셋에서 기존 최고 성능 모델 대비 괄목할 만한 성능 향상(Frechet Audio Distance 75% 감소, 청취 테스트에서도 유의미한 차이).
한계점:
현재는 피아노 연주에 집중되어 있으며, 다른 악기로의 확장성에 대한 추가 연구 필요.
사용된 데이터셋의 다양성에 대한 추가적인 검토와 다양한 음악 장르에 대한 일반화 성능 평가 필요.
모델의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍