본 논문은 정적 배경과 고립된 음향 이벤트를 구분하여 처리하는 오디오 시스템을 제안합니다. 이 시스템은 각 부분에 특정 처리 방법을 적용하거나 한쪽에만 집중하고 다른 쪽은 무시하는 데 사용될 수 있습니다. 강력한 적응형 오디오 렌더링 시스템, 음성 믹싱에서의 파열음 감쇠, 잡음 제거, 강력한 음향 이벤트 분류 또는 생물 음향학 등 실제 시나리오에 적용 가능합니다. 이를 위해, 본 논문은 심층 필터링 기법을 사용하여 충격적인 음향 이벤트를 정적 배경에서 분리하는 신경망 IS³(Impulsive-Stationary Sound Separation)을 제안합니다. 최적의 학습을 위해 기존 데이터셋을 이 작업에 맞게 수정하고 조정하는 정교한 데이터 생성 파이프라인도 제안합니다. 상대적으로 가볍고 잘 설계된 다양한 데이터로 학습된 학습 기반 접근 방식이 이전에 다루어지지 않았던 작업에서 성공적임을 보여주며, 음악 신호 처리 연구에서 채택된 고조파-타악기 음향 분리 마스킹 방법 및 웨이블릿 필터링보다 객관적인 분리 지표에서 성능이 우수함을 입증합니다.
시사점, 한계점
•
시사점:
◦
정적 배경과 충격적 음향 이벤트를 효과적으로 분리하는 새로운 신경망 아키텍처(IS³)를 제시.
◦
다양한 실제 응용 분야(음성 믹싱, 잡음 제거, 생물 음향학 등)에 적용 가능한 전처리 단계 제공.
◦
기존 방법(고조파-타악기 음향 분리, 웨이블릿 필터링)보다 우수한 성능을 객관적인 지표로 입증.