Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement

Created by
  • Haebom

저자

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

개요

본 논문은 음성 향상(SE)을 위한 효율적인 단일 단계 유동 매칭(FM) 프레임워크인 COSE를 제안합니다. 기존의 다단계 확산 및 유동 매칭 모델은 계산 비용이 많이 들고 이산화 오차에 취약하다는 단점이 있습니다. COSE는 MeanFlow의 단일 단계 생성 모델링 접근 방식을 채택하여 평균 속도장을 통해 역동성을 재구성합니다. 특히, Jacobian-vector product (JVP) 계산의 높은 훈련 오버헤드 문제를 해결하기 위해 속도 합성 항등식을 도입하여 평균 속도를 효율적으로 계산합니다. 이를 통해 계산 비용을 줄이면서 이론적 일관성을 유지하고 경쟁력 있는 음성 향상 품질을 달성합니다. 실험 결과, COSE는 최대 5배 빠른 샘플링과 40% 감소된 훈련 비용을 제공하며, 음성 품질 저하 없이 효율성을 크게 향상시켰음을 보여줍니다.

시사점, 한계점

시사점:
단일 단계 유동 매칭 프레임워크를 통해 음성 향상 작업의 계산 비용을 크게 줄임 (최대 5배 빠른 샘플링, 40% 감소된 훈련 비용).
속도 합성 항등식을 이용하여 JVP 계산의 효율성을 높임.
기존 방법과 비교하여 경쟁력 있는 음성 향상 품질을 유지.
효율적인 음성 향상 모델 개발에 대한 새로운 방향 제시.
한계점:
본 논문에서 제시된 속도 합성 항등식의 일반화 가능성에 대한 추가 연구 필요.
다양한 음성 데이터셋 및 노이즈 환경에 대한 성능 평가가 더 필요.
단일 단계 모델의 성능이 다단계 모델에 비해 모든 상황에서 우수한지에 대한 추가 검증 필요.
👍