DeMT는 사용자가 가지고 있지 않은 기기에서 음악 재생을 적응시키는 장치 기반 음악 전송을 제안한다. 기존 방법론이 장르나 아티스트를 모방하기 위해 음색, 리듬, 화성 또는 악기 편성을 수정하는 데 집중한 반면, DeMT는 재생 장치(예: 스피커)의 다양한 하드웨어 속성을 간과했다. DeMT는 시각-언어 모델을 사용하여 스피커의 주파수 응답 곡선을 선 그래프로 처리하여 장치 임베딩을 추출한다. 이러한 임베딩은 feature-wise linear modulation을 통해 하이브리드 트랜스포머를 조건화한다. 자체 수집한 데이터 세트로 미세 조정된 DeMT는 장치 스타일 변환과 보이지 않는 장치에 대한 강력한 소수 샷 적응을 가능하게 하여 장치 스타일 증강 및 품질 향상과 같은 응용 프로그램을 지원한다.