본 논문은 악보 이미지, 기호 악보, MIDI, 오디오 등 다양한 모드로 존재하는 음악 데이터 간의 변환을 위한 통합 접근법을 제시합니다. 기존 연구들이 개별 변환 작업에 특화된 모델을 학습하는 것과 달리, 본 논문에서는 다양한 변환 작업을 동시에 학습하는 범용 모델을 제안합니다. 이를 위해 YouTube 비디오에서 수집한 1,300시간 이상의 페어링된 오디오-악보 이미지 데이터로 구성된 대규모 데이터셋과 각 모드를 토큰화하는 통합 프레임워크를 제시합니다. 통합 토큰화 프레임워크는 악보 이미지, 오디오, MIDI, MusicXML을 토큰 시퀀스로 변환하여 단일 인코더-디코더 Transformer가 여러 모드 간 변환을 일관된 시퀀스-투-시퀀스 작업으로 처리할 수 있도록 합니다. 실험 결과, 제안된 통합 다중 작업 모델은 여러 주요 영역에서 단일 작업 기준 모델보다 성능이 향상되었으며, 특히 광학 악보 인식의 심볼 에러율을 24.58%에서 최첨단 수준인 13.67%로 감소시켰습니다. 또한, 악보 이미지를 조건으로 한 오디오 생성에 최초로 성공하여 모드 간 음악 생성 분야에서 중요한 발전을 이루었습니다.