[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment

Created by
  • Haebom

저자

Abhinaba Roy, Geeta Puri, Dorien Herremans

개요

Text2midi-InferAlign은 추론 시점에서 기호 음악 생성을 개선하는 새로운 기법입니다. 본 방법은 생성된 음악이 입력 캡션과 일관되도록 하기 위해 추론 중에 텍스트-오디오 정렬 및 음악 구조 정렬 보상을 활용합니다. 특히, 생성된 음악과 원본 텍스트 캡션 간의 리듬 정렬을 측정하는 텍스트-오디오 일관성 점수와 키와 일치하지 않는 음표가 포함된 생성된 음악에 페널티를 부여하는 조화 일관성 점수라는 두 가지 목표 점수를 도입합니다. 생성 과정에서 이러한 정렬 기반 목표를 최적화함으로써, 모델은 입력 캡션과 더 밀접하게 연결된 기호 음악을 생성하여 생성된 작곡의 전반적인 품질과 일관성을 향상시킵니다. 이 방법은 추가적인 훈련이나 미세 조정 없이 기존의 모든 자기 회귀 모델에 확장할 수 있습니다. 기존의 텍스트-MIDI 생성 모델인 Text2midi를 기반으로 평가하여, 객관적 및 주관적 평가 지표 모두에서 상당한 개선을 보였습니다.

시사점, 한계점

시사점:
추론 시점에서의 정렬 기반 목표 최적화를 통해 기호 음악 생성의 품질과 일관성 향상.
추가적인 훈련 없이 기존 모델에 적용 가능한 확장성 있는 방법 제시.
객관적 및 주관적 평가 지표에서의 성능 향상을 실험적으로 검증.
한계점:
특정 텍스트-MIDI 생성 모델(Text2midi)에 대한 평가 결과로 일반화 가능성에 대한 추가 연구 필요.
다양한 음악 장르 및 스타일 전반의 성능 검증 필요.
텍스트-오디오 및 음악 구조 정렬의 정확성에 대한 의존성으로 인한 성능 저하 가능성.
👍