AI-생성 콘텐츠(AIGC)의 증가와 함께, 다양한 입력으로부터 지각적으로 자연스럽고 감정에 맞춰진 음악을 생성하는 것이 핵심적인 과제가 되었다. 기존 방법은 비용이 많이 드는 주석이 필요한 명시적인 감정 레이블에 의존하는 경우가 많아, 보다 유연한 감정 정렬 방법의 필요성이 대두되었다. 본 논문에서는 다중 모드 음악 생성을 지원하기 위해 ArtEmis 및 MusicCaps의 설명을 의미론적으로 매칭하여 생성된 유사 감정 정렬 이미지-음악-텍스트 데이터 세트인 ArtiCaps를 구축했다. 또한, 예술 이미지와 사용자 댓글로부터 음악을 합성하는 경량의 교차 모달 프레임워크인 Art2Music을 제안한다. Art2Music은 이미지와 텍스트를 OpenCLIP로 인코딩하고, 게이트형 잔차 모듈을 사용하여 융합한 후, 양방향 LSTM을 통해 Mel-spectrogram으로 디코딩하며, 고주파수 충실도를 향상시키기 위해 주파수 가중 L1 손실을 사용한다. 두 번째 단계에서는 미세 조정된 HiFi-GAN 보코더가 고품질 오디오 파형을 재구성한다. ArtiCaps에 대한 실험 결과, Mel-Cepstral Distortion, Frechet Audio Distance, Log-Spectral Distance 및 코사인 유사도에서 뚜렷한 개선을 보였다. 소규모 LLM 기반 평가 연구는 일관된 교차 모달 감정 정렬을 확인하고, 모달리티 간의 일치 및 불일치에 대한 해석 가능한 설명을 제공한다. Art2Music은 또한 단 5만 개의 훈련 샘플로도 견고한 성능을 유지하여, 인터랙티브 아트, 개인화된 사운드스케이프 및 디지털 아트 전시회에서 감정 정렬 창의적 오디오 생성을 위한 확장 가능한 솔루션을 제공한다.