본 논문은 복잡한 실제 세계의 음향 장면 편집을 위한 시스템을 제시합니다. 개별 음원이 시간적으로 겹치는 복잡한 음향 장면에서 개별 음향 이벤트를 삭제, 삽입, 강화하는 기능을 제공합니다. 텍스트 편집 설명 (예: "문 소리를 강화")과 이벤트 롤 전사에서 파생된 이벤트 타이밍의 그래픽 표현을 기반으로 동작합니다. SoundStream 표현을 사용하는 인코더-디코더 트랜스포머를 사용하며, 실제 배경에 고립된 음향 이벤트를 추가하여 생성된 합성 (입력, 원하는 출력) 오디오 예제 쌍으로 훈련됩니다. 평가 결과, 편집 설명의 각 부분(동작, 클래스, 타이밍)의 중요성이 드러났으며, 이 연구는 "재구성"이 중요하고 실용적인 응용 분야임을 보여줍니다.