Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Art2Music: Generating Music for Art Images with Multi-modal Feeling Alignment

Created by
  • Haebom
Category
Empty

저자

Jiaying Hong, Ting Zhu, Thanet Markchom, Huizhi Liang

개요

AI-생성 콘텐츠(AIGC)의 증가와 함께, 다양한 입력으로부터 지각적으로 자연스럽고 감정에 맞춰진 음악을 생성하는 것이 핵심적인 과제가 되었다. 기존 방법은 비용이 많이 드는 주석이 필요한 명시적인 감정 레이블에 의존하는 경우가 많아, 보다 유연한 감정 정렬 방법의 필요성이 대두되었다. 본 논문에서는 다중 모드 음악 생성을 지원하기 위해 ArtEmis 및 MusicCaps의 설명을 의미론적으로 매칭하여 생성된 유사 감정 정렬 이미지-음악-텍스트 데이터 세트인 ArtiCaps를 구축했다. 또한, 예술 이미지와 사용자 댓글로부터 음악을 합성하는 경량의 교차 모달 프레임워크인 Art2Music을 제안한다. Art2Music은 이미지와 텍스트를 OpenCLIP로 인코딩하고, 게이트형 잔차 모듈을 사용하여 융합한 후, 양방향 LSTM을 통해 Mel-spectrogram으로 디코딩하며, 고주파수 충실도를 향상시키기 위해 주파수 가중 L1 손실을 사용한다. 두 번째 단계에서는 미세 조정된 HiFi-GAN 보코더가 고품질 오디오 파형을 재구성한다. ArtiCaps에 대한 실험 결과, Mel-Cepstral Distortion, Frechet Audio Distance, Log-Spectral Distance 및 코사인 유사도에서 뚜렷한 개선을 보였다. 소규모 LLM 기반 평가 연구는 일관된 교차 모달 감정 정렬을 확인하고, 모달리티 간의 일치 및 불일치에 대한 해석 가능한 설명을 제공한다. Art2Music은 또한 단 5만 개의 훈련 샘플로도 견고한 성능을 유지하여, 인터랙티브 아트, 개인화된 사운드스케이프 및 디지털 아트 전시회에서 감정 정렬 창의적 오디오 생성을 위한 확장 가능한 솔루션을 제공한다.

시사점, 한계점

시사점:
ArtiCaps 데이터셋 구축을 통해 다중 모달 음악 생성 연구에 기여
Art2Music 프레임워크 제안: 예술 이미지 및 사용자 댓글 기반 음악 생성
경량 프레임워크로, 적은 데이터로도 우수한 성능 달성
감정 정렬 측면의 성능 향상 (Mel-Cepstral Distortion, Frechet Audio Distance, Log-Spectral Distance, 코사인 유사도)
LLM 기반 평가를 통해 교차 모달 감정 정렬의 일관성 확인 및 해석 가능성 제공
인터랙티브 아트, 개인화된 사운드스케이프, 디지털 아트 전시회 등 다양한 분야에 활용 가능성
한계점:
구체적인 한계점 정보는 논문 내용에 명시되지 않음
👍