Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Recomposer: Event-roll-guided generative audio editing

Created by
  • Haebom

저자

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

개요

본 논문은 복잡한 실제 세계의 음향 장면 편집을 위한 시스템을 제시합니다. 개별 음원이 시간적으로 겹치는 복잡한 음향 장면에서 개별 음향 이벤트를 삭제, 삽입, 강화하는 기능을 제공합니다. 텍스트 편집 설명 (예: "문 소리를 강화")과 이벤트 롤 전사에서 파생된 이벤트 타이밍의 그래픽 표현을 기반으로 동작합니다. SoundStream 표현을 사용하는 인코더-디코더 트랜스포머를 사용하며, 실제 배경에 고립된 음향 이벤트를 추가하여 생성된 합성 (입력, 원하는 출력) 오디오 예제 쌍으로 훈련됩니다. 평가 결과, 편집 설명의 각 부분(동작, 클래스, 타이밍)의 중요성이 드러났으며, 이 연구는 "재구성"이 중요하고 실용적인 응용 분야임을 보여줍니다.

시사점, 한계점

시사점:
복잡한 음향 장면 내 개별 음향 이벤트 편집을 위한 효과적인 시스템 제시.
텍스트 기반 편집 설명과 이벤트 타이밍 정보를 활용한 편집 가능.
SoundStream 표현을 활용한 효율적인 모델 구현.
"재구성"이라는 새로운 음향 편집 응용 분야의 가능성 제시.
편집 설명의 각 요소(동작, 클래스, 타이밍)의 중요성을 실험적으로 검증.
한계점:
합성 데이터를 사용한 훈련으로 인한 실제 세계 데이터에 대한 일반화 성능 저하 가능성.
이벤트 롤 전사의 정확도에 대한 의존성.
다양한 유형의 음향 이벤트 및 복잡한 음향 장면에 대한 일반화 성능 검증 필요.
👍