MuseControlLite는 다양한 시간 변화 음악 속성과 참조 오디오 신호를 사용하여 텍스트 음악 생성 모델을 정밀하게 조절하기 위한 경량 메커니즘입니다. 본 논문의 주요 발견은 텍스트 조건의 조건자에서 텍스트-음악 생성 모델에 거의 사용되지 않았던 위치 임베딩이 관심 조건이 시간의 함수일 때 중요하다는 것입니다. 멜로디 제어를 예시로 사용하여, 분리된 크로스 어텐션 레이어에 회전 위치 임베딩을 추가하는 것만으로도 제어 정확도가 56.6%에서 61.1%로 증가하며, 동일한 사전 훈련된 Stable Audio Open의 확산 트랜스포머 모델을 사용하는 최첨단 미세 조정 메커니즘보다 6.75배 적은 학습 가능한 매개변수를 필요로 함을 보여줍니다. 다양한 형태의 음악 속성 제어, 오디오 인페인팅 및 오디오 아웃페인팅을 평가하여 MusicGen-Large 및 Stable Audio Open ControlNet보다 훨씬 낮은 미세 조정 비용(85M 학습 가능한 매개변수만)으로 향상된 제어 성능을 입증합니다. 소스 코드, 모델 체크포인트 및 데모 예시는 https://musecontrollite.github.io/web/ 에서 확인할 수 있습니다.