본 논문은 음악을 듣고 다양한 분위기와 배경을 상상하는 인간의 능력을 모방하는 음악 장면 상상(MSI) 모델을 제시합니다. 기존 음악 캡션 생성 모델이 음악적 요소에만 집중하는 것과 달리, MusiScene이라는 모델을 제안하여 음악에 어울리는 장면을 묘사하는 캡션을 생성합니다. 이를 위해 3,371개의 비디오-오디오 캡션 쌍으로 구성된 대규모 데이터셋을 구축하고, MU-LLaMA를 MSI 작업에 맞춰 미세 조정하여 MusiScene을 개발하였습니다. 실험 결과, MusiScene이 MU-LLaMA보다 문맥에 맞는 캡션을 생성하는 데 더 뛰어나다는 것을 보여주고, 생성된 MSI 캡션을 활용하여 텍스트 기반 비디오 배경 음악 생성(VBMG)을 향상시킬 수 있음을 제시합니다.