[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio

Created by
  • Haebom

저자

Jongmin Jung, Dongmin Kim, Sihun Lee, Seola Cho, Hyungjoon Soh, Irmak Bukey, Chris Donahue, Dasaem Jeong

개요

본 논문은 악보 이미지, 기호 악보, MIDI, 오디오 등 다양한 모드로 존재하는 음악 데이터 간의 변환을 위한 통합 접근법을 제시합니다. 기존 연구들이 개별 변환 작업에 특화된 모델을 학습하는 것과 달리, 본 논문에서는 다양한 변환 작업을 동시에 학습하는 범용 모델을 제안합니다. 이를 위해 YouTube 비디오에서 수집한 1,300시간 이상의 페어링된 오디오-악보 이미지 데이터로 구성된 대규모 데이터셋과 각 모드를 토큰화하는 통합 프레임워크를 제시합니다. 통합 토큰화 프레임워크는 악보 이미지, 오디오, MIDI, MusicXML을 토큰 시퀀스로 변환하여 단일 인코더-디코더 Transformer가 여러 모드 간 변환을 일관된 시퀀스-투-시퀀스 작업으로 처리할 수 있도록 합니다. 실험 결과, 제안된 통합 다중 작업 모델은 여러 주요 영역에서 단일 작업 기준 모델보다 성능이 향상되었으며, 특히 광학 악보 인식의 심볼 에러율을 24.58%에서 최첨단 수준인 13.67%로 감소시켰습니다. 또한, 악보 이미지를 조건으로 한 오디오 생성에 최초로 성공하여 모드 간 음악 생성 분야에서 중요한 발전을 이루었습니다.

시사점, 한계점

시사점:
대규모 다중 모달 음악 데이터셋을 구축하여 다양한 음악 모드 간 변환 연구에 기여.
통합 토큰화 프레임워크를 통해 단일 모델로 다양한 음악 모드 간 변환 작업을 수행 가능하게 함.
광학 악보 인식 및 기타 음악 모드 변환 작업에서 성능 향상을 달성.
악보 이미지를 조건으로 한 오디오 생성에 최초로 성공하여 새로운 가능성 제시.
한계점:
데이터셋의 편향성 및 일반화 성능에 대한 추가적인 분석 필요.
제안된 모델의 계산 비용 및 효율성에 대한 추가적인 연구 필요.
다양한 음악 장르 및 스타일에서의 일반화 성능 평가 필요.
👍