Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient and Fast Generative-Based Singing Voice Separation using a Latent Diffusion Model

Created by
  • Haebom
Category
Empty

저자

Genis Plaja-Roglans, Yun-Ning Hung, Xavier Serra, Igor Pereira

개요

음악 믹스에서 개별 요소를 추출하는 것은 음악 제작 및 연습에 유용한 도구입니다. 믹스 스펙트로그램을 개별 소스로 마스킹하거나 변환하도록 최적화된 신경망이 주요 접근 방식이었지만, 음악 신호의 소스 중첩 및 상관 관계는 내재적인 어려움을 야기합니다. 또한, 이러한 시스템을 훈련하려면 믹스의 모든 소스에 액세스해야 하지만 이는 복잡합니다. 이러한 문제를 생성 방식으로 해결하려는 시도가 있지만, 분리 성능과 추론 효율성은 여전히 제한적입니다. 이 연구에서는 이러한 격차를 해소하기 위해 확산 모델의 잠재력을 연구하며, 훈련을 위해 고립된 보컬과 믹스의 해당 쌍만 사용하는 생성적 보컬 분리에 중점을 둡니다. 창작 워크플로우에 맞춰, 잠재 확산을 활용합니다: 시스템은 콤팩트한 잠재 공간에 인코딩된 샘플을 생성하고, 이후 오디오로 디코딩합니다. 이를 통해 효율적인 최적화와 더 빠른 추론이 가능합니다. 우리의 시스템은 공개 데이터만 사용하여 훈련되었습니다. 우리는 기존의 생성적 분리 시스템보다 뛰어나며, 신호 품질 측정 및 간섭 제거에서 비교 대상인 비생성적 시스템과 동등한 수준을 달성합니다. 우리는 잠재 인코더에 대한 잡음 견고성 연구를 제공하여 작업에 대한 잠재력을 통찰력 있게 보여줍니다. 이 주제에 대한 추가 연구를 위한 모듈형 툴킷을 출시합니다.

시사점, 한계점

생성적 보컬 분리에서 확산 모델의 가능성을 제시합니다.
공개 데이터만 사용하여 효율적인 학습과 추론이 가능한 시스템을 개발했습니다.
기존 생성적 시스템보다 뛰어난 성능과 비생성적 시스템과 동등한 수준을 달성했습니다.
잠재 인코더의 잡음 견고성에 대한 연구 결과를 제공합니다.
연구를 위한 모듈형 툴킷을 제공합니다.
논문에서 구체적인 한계점은 명시되지 않았습니다.
👍