본 논문은 MusicGen과 Mustango와 같은 대규모 음악 생성 모델의 파라미터 효율적인 미세 조정(PEFT)에 초점을 맞추고 있습니다. 특히, 어댑터 기반 PEFT 기법을 사용하여 힌두스탄 고전 음악과 터키 마캄 음악이라는 두 가지 저자원 음악 장르에 대한 최적의 어댑터 구성을 탐색합니다. 다양한 어댑터 아키텍처(컨볼루션 기반, 트랜스포머 기반), 배치 위치, 크기를 실험하여 각 아키텍처의 강점과 약점(컨볼루션 기반 어댑터는 세부적인 음악적 요소에 강점, 트랜스포머 기반 어댑터는 장기 의존성에 강점)을 분석하고, 중간 크기(40M 파라미터) 어댑터가 성능과 효율성 면에서 최적의 균형을 제공함을 보여줍니다. 또한, 확산 기반 모델인 Mustango와 자기회귀 모델인 MusicGen의 성능 차이(Mustango는 다양성이 높지만 안정성이 낮고, MusicGen은 안정성이 높지만 다양성이 다소 낮음)와 계산 비용 측면에서의 차이를 비교 분석합니다.