Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MusiScene: Leveraging MU-LLaMA for Scene Imagination and Enhanced Video Background Music Generation

Created by
  • Haebom

저자

Fathinah Izzati, Xinyue Li, Yuxuan Wu, Gus Xia

개요

본 논문은 음악을 듣고 다양한 분위기와 배경을 상상하는 인간의 능력을 모방하는 음악 장면 상상(MSI) 모델을 제시합니다. 기존 음악 캡션 생성 모델이 음악적 요소에만 집중하는 것과 달리, MusiScene이라는 모델을 제안하여 음악에 어울리는 장면을 묘사하는 캡션을 생성합니다. 이를 위해 3,371개의 비디오-오디오 캡션 쌍으로 구성된 대규모 데이터셋을 구축하고, MU-LLaMA를 MSI 작업에 맞춰 미세 조정하여 MusiScene을 개발하였습니다. 실험 결과, MusiScene이 MU-LLaMA보다 문맥에 맞는 캡션을 생성하는 데 더 뛰어나다는 것을 보여주고, 생성된 MSI 캡션을 활용하여 텍스트 기반 비디오 배경 음악 생성(VBMG)을 향상시킬 수 있음을 제시합니다.

시사점, 한계점

시사점:
음악과 시각적 정보 간의 상호 작용을 이해하는 새로운 음악 모델(MusiScene)을 제시.
대규모 비디오-오디오 캡션 데이터셋 구축을 통해 MSI 연구의 기반 마련.
MusiScene이 기존 모델보다 더욱 문맥에 적합한 음악 캡션 생성 능력을 보임.
생성된 캡션을 활용하여 VBMG 성능 향상 가능성 제시.
한계점:
데이터셋의 규모가 더욱 확장될 필요가 있음. (3,371개는 상대적으로 적은 양일 수 있음)
모델의 일반화 능력에 대한 추가적인 검증이 필요함.
다양한 음악 장르와 스타일을 모두 충분히 고려했는지에 대한 검토 필요.
MSI 캡션의 질적 평가에 대한 보다 심도있는 분석 필요.
👍