Text2midi-InferAlign은 추론 시점에서 기호 음악 생성을 개선하는 새로운 기법입니다. 본 방법은 생성된 음악이 입력 캡션과 일관되도록 하기 위해 추론 중에 텍스트-오디오 정렬 및 음악 구조 정렬 보상을 활용합니다. 특히, 생성된 음악과 원본 텍스트 캡션 간의 리듬 정렬을 측정하는 텍스트-오디오 일관성 점수와 키와 일치하지 않는 음표가 포함된 생성된 음악에 페널티를 부여하는 조화 일관성 점수라는 두 가지 목표 점수를 도입합니다. 생성 과정에서 이러한 정렬 기반 목표를 최적화함으로써, 모델은 입력 캡션과 더 밀접하게 연결된 기호 음악을 생성하여 생성된 작곡의 전반적인 품질과 일관성을 향상시킵니다. 이 방법은 추가적인 훈련이나 미세 조정 없이 기존의 모든 자기 회귀 모델에 확장할 수 있습니다. 기존의 텍스트-MIDI 생성 모델인 Text2midi를 기반으로 평가하여, 객관적 및 주관적 평가 지표 모두에서 상당한 개선을 보였습니다.