본 논문은 이미지, 비디오, 텍스트와 같은 다양한 모달리티를 악보 및 오디오와 함께 사용하는 다모달 음악 생성 분야에 대한 심층적인 검토를 제공합니다. 다양한 모달리티를 기반으로 음악 생성 시스템을 분류하고, 모달리티 표현, 다모달 데이터 정렬 및 음악 생성 지침으로서의 활용에 대해 논의합니다. 또한, 현재 사용 가능한 데이터셋과 평가 방법을 다루고, 효과적인 다모달 통합, 대규모 포괄적인 데이터셋, 그리고 체계적인 평가 방법의 부족과 같은 주요 과제를 제시합니다. 마지막으로, 다모달 융합, 정렬, 데이터 및 평가에 중점을 둔 미래 연구 방향에 대한 전망을 제시합니다.