본 논문은 다양한 음악 요소를 분석하고 해석하는 음악 이해 작업에서 음악 대규모 언어 모델(LLM)의 성능 향상을 다룹니다. 기존 연구는 주로 음악과 텍스트 입력 통합에 초점을 맞췄지만, 영상, 이미지, 텍스트 기반 음악 특징 등 추가 모달리티를 통합하는 잠재력은 아직 탐구되지 않았습니다. 이를 해결하기 위해, 본 논문에서는 다양한 방식으로 정렬된 음악, 텍스트, 이미지, 비디오 데이터를 사용한 다중 방식 지시 조정(multi-way instruction tuning)을 통해 미세 조정된 다모달 음악 이해 LLM인 DeepResonance를 제안합니다. DeepResonance는 Music4way-MI2T, Music4way-MV2T, Music4way-Any2T 세 가지 4-way 학습 및 평가 데이터셋을 사용하여 시각적 및 텍스트 기반 음악 특징 콘텐츠를 통합합니다. 또한, 다중 샘플링된 ImageBind 임베딩과 사전 LLM 융합 트랜스포머를 도입하여 다중 방식 지시 조정에 맞게 모달리티 융합을 향상시킵니다. 실험 결과, DeepResonance는 6가지 음악 이해 작업에서 최첨단 성능을 달성하며 보조 모달리티의 이점과 DeepResonance의 구조적 우수성을 강조합니다. 본 논문에서는 구축한 코드, 모델 및 데이터셋을 오픈소스로 공개합니다 (github.com/sony/DeepResonance).