WildFX: A DAW-Powered Pipeline for In-the-Wild Audio FX Graph Modeling
Created by
Haebom
저자
Qihui Yang, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack
개요
본 논문은 End-to-End AI 음악 생성의 빠른 발전에도 불구하고, 전문적인 디지털 신호 처리(DSP) 워크플로우를 AI 기반으로 모델링하는 것이 여전히 어렵다는 점을 지적합니다. 특히, 리버브, 압축, 이퀄라이제이션과 같은 오디오 효과 그래프의 신경망 블랙박스 모델링에 대한 관심이 증가하고 있지만, AI 기반 접근 방식은 전문적인 워크플로우에서 사용되는 미묘한 신호 흐름과 매개변수 상호 작용을 복제하는 데 어려움을 겪습니다. 기존의 미분 가능한 플러그인 접근 방식은 종종 실제 도구와 차이가 있으며, 동일한 계산 제약 조건 하에서 단순화된 신경망 컨트롤러에 비해 성능이 열등합니다. 따라서 본 논문에서는 Docker로 컨테이너화된 WildFX 파이프라인을 소개합니다. WildFX는 전문적인 디지털 오디오 워크스테이션(DAW) 백엔드를 기반으로 풍부한 효과 그래프를 가진 다중 트랙 오디오 믹싱 데이터셋을 생성합니다. WildFX는 VST/VST3/LV2/CLAP 형식의 플랫폼 간 상용 플러그인 또는 기타 플러그인과의 원활한 통합을 지원하여 사이드체인, 크로스오버와 같은 구조적 복잡성을 가능하게 하고 효율적인 병렬 처리를 달성합니다. 최소한의 메타데이터 인터페이스는 프로젝트/플러그인 구성을 단순화합니다. 실험을 통해 믹싱 그래프, 플러그인/게인 매개변수의 맹목적인 추정 및 AI 연구와 실제 DSP 요구 사항 간의 연결 가능성을 통해 파이프라인의 유효성을 입증합니다. 코드는 https://github.com/IsaacYQH/WildFX 에서 사용 가능합니다.