Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

General-purpose audio representation learning for real-world sound scenes

Created by
  • Haebom

저자

Goksenin Yuksel, Marcel van Gerven, Kiki van der Heijden

개요

본 논문은 실제 환경의 다양한 소리에 대한 강건한 공간 오디오 표현 학습을 가능하게 하는 새로운 자기 지도 학습 방식인 GRAM(General-Purpose, Real-world Audio Models)을 제안합니다. GRAM은 마스킹 기반 딥러닝 모델에 적용 가능하며, 변환기(transformer)와 맘바(mamba) 백본을 사용한 두 가지 최첨단 모델에 적용되어 HEAR 벤치마크 및 새로운 음원 위치 파악 작업에서 평가되었습니다. 기존 최첨단 오디오 기반 모델보다 적은 학습 단계로 건조하고 공간 정보가 없는 단일 음원과 실제 환경의 소리 간 성능 차이를 최소화하며, 특히 청각 장면 분석과 음원 위치 파악에서 최첨단 성능을 달성했습니다. 이는 실제 응용 분야를 위한 강건한 오디오 기반 모델 개발에 중요한 진전을 의미합니다.

시사점, 한계점

시사점:
실제 환경의 복잡한 소리에 강건한 오디오 표현 학습 가능
자기 지도 학습 방식으로 데이터 의존성 감소 및 효율적인 학습 가능
청각 장면 분석 및 음원 위치 파악 등 다양한 작업에서 최첨단 성능 달성
마스킹 기반 다양한 딥러닝 모델에 적용 가능
한계점:
제시된 자기 지도 학습 방식의 일반화 성능에 대한 추가적인 연구 필요
다양한 실제 환경의 소리 데이터에 대한 추가적인 실험 필요
특정 벤치마크 데이터셋에 대한 성능 평가에 치우쳐, 다른 데이터셋에서의 일반화 성능 검증 필요
👍