본 논문은 악보로부터 표현력 있는 오디오 연주를 생성하는 문제를 다룹니다. 기존의 음악 연주 합성 파이프라인은 악보로부터 표현력 있는 연주 MIDI를 생성한 후, MIDI를 오디오로 합성하는 두 단계 방식을 따릅니다. 하지만 합성 모델은 다양한 MIDI 소스, 음악 스타일 및 녹음 환경에서 일반화하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 원래 제로샷 개인화 텍스트 음성 합성을 위해 설계된 VALLE 프레임워크를 바탕으로 한 신경 코덱 언어 모델인 MIDI-VALLE를 제안합니다. MIDI-to-audio 합성을 위해, 참조 오디오 연주와 해당 MIDI를 조건으로 하는 아키텍처를 개선했습니다. 이전 TTS 기반 시스템이 피아노 롤에 의존하는 것과 달리, MIDI-VALLE은 MIDI와 오디오를 모두 이산 토큰으로 인코딩하여 피아노 연주의 보다 일관되고 강력한 모델링을 가능하게 합니다. 또한, 광범위하고 다양한 피아노 연주 데이터셋으로 학습하여 모델의 일반화 능력을 향상시켰습니다. 평가 결과, MIDI-VALLE은 최첨단 기준 모델을 크게 능가하여 ATEPP 및 Maestro 데이터셋에서 Frechet Audio Distance를 75% 이상 낮추었습니다. 청취 테스트에서 MIDI-VALLE은 기준 모델에 비해 202표 대 58표를 얻어 다양한 연주 MIDI 입력에 대한 합성 품질과 일반화 능력이 향상되었음을 보여줍니다.