본 논문은 음악 생성 인공지능의 발전에도 불구하고 인간의 선호도를 제대로 반영하지 못하는 문제점을 지적하며, 선호도 정렬 기술의 체계적인 적용을 제안합니다. MusicRL의 대규모 선호 학습, DiffRhythm+의 확산 기반 선호도 최적화, Text2midi-InferAlign과 같은 추론 시간 최적화 기술 등을 통해 시간적 일관성, 화성적 일치성, 주관적 품질 평가 등 음악의 고유한 과제를 해결하는 방법을 논의합니다. 대규모 작곡으로의 확장성, 선호도 모델링의 신뢰성 등 주요 연구 과제를 제시하며, 대화형 작곡 도구 및 개인 맞춤형 음악 서비스와 같은 응용 분야에서의 변화를 전망합니다.