Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model

Created by
  • Haebom

저자

Lei Zhao, Sizhou Chen, Linfeng Feng, Jichao Zhang, Xiao-Lei Zhang, Chi Zhang, Xuelong Li

개요

본 논문은 텍스트를 공간 오디오로 변환하는 새로운 프레임워크인 DualSpec을 제안합니다. DualSpec은 먼저 사운드 이벤트 오디오에서 잠재 음향 표현을 추출하기 위해 변분 오토인코더(VAE)를 학습합니다. 그런 다음, 사운드 이벤트와 이벤트 방향을 설명하는 텍스트를 입력받아 사전 학습된 거대 언어 모델의 인코더를 사용하여 텍스트를 텍스트 특징으로 변환합니다. 마지막으로, 잠재 음향 표현과 텍스트 특징으로부터 공간 오디오 생성을 위한 확산 모델을 학습합니다. 추론 단계에서는 텍스트 설명만으로 공간 오디오를 생성할 수 있습니다. 합성 품질과 방위각 정확도를 동시에 향상시키기 위해 Mel 스펙트로그램과 단시간 푸리에 변환 스펙트로그램이라는 두 가지 종류의 음향 특징을 사용합니다. 또한, VAE와 확산 모델의 학습을 위한 텍스트 프롬프트가 포함된 공간 오디오 데이터셋을 구축하는 파이프라인과 생성된 공간 오디오 레코딩의 방위각 오차를 정량화하는 새로운 공간 인식 평가 지표를 제시합니다. 실험 결과, 제안된 방법이 높은 방향성과 이벤트 일관성을 가진 공간 오디오를 생성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
텍스트 기반 공간 오디오 생성 분야에 새로운 방법론 제시
Mel 스펙트로그램과 STFT 스펙트로그램을 활용하여 합성 품질과 방위각 정확도를 동시에 향상
새로운 공간 인식 평가 지표 제시
텍스트만으로 고품질의 공간 오디오 생성 가능
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 음향 환경 및 복잡한 사운드 이벤트에 대한 성능 평가 필요
대규모 데이터셋 구축의 어려움 및 데이터 편향 문제 고려 필요
👍