Sign In

Evaluation of Deep Audio Representations for Hearables

Created by
  • Haebom
Category
Empty

저자

Fabian Groger, Pascal Baumann, Ludovic Amruthalingam, Laurent Simon, Ruksana Giurda, Simone Lionetti

개요

본 논문은 청각 보조 기기의 효과적인 제어를 위해 사용자 주변의 음향 환경 이해가 중요함을 강조하며, 이를 위한 음향 장면 분석에 초점을 맞추고 있습니다. 최첨단 성능을 보이는 기반 모델(foundation model)을 이용하여 다목적이고 견고한 오디오 표현을 생성하는 방법을 제시합니다. 특히, 청각 보조 기기의 음향 특성 포착 능력을 평가하기 위한 최초의 데이터셋 및 벤치마크인 Deep Evaluation of Audio Representations (DEAR)을 소개하고 공개합니다. DEAR 데이터셋은 1,158개의 30초 길이 오디오 트랙으로 구성되며, 독점적인 독백과 고품질의 일상 생활 음향 장면 녹음을 공간적으로 혼합하여 생성되었습니다. 본 논문은 8가지 과제를 통해 오디오 장면의 일반적인 맥락, 음성 원천, 기술적인 음향 특성을 평가하고, 4가지 범용 오디오 표현 모델을 평가하여 BEATs 모델이 다른 모델보다 뛰어난 성능을 보임을 입증합니다. 이는 다양한 오디오 컬렉션으로 훈련된 모델의 장점과 청각 보조 기기 제어에 필요한 환경 특성 인코딩을 포함한 광범위한 청각 과제에 대한 적용 가능성을 확인합니다. DEAR 데이터셋과 관련 코드는 https://dear-dataset.github.io 에서 이용 가능합니다.

시사점, 한계점

시사점:
다양한 오디오 데이터로 학습된 기반 모델(예: BEATs)이 청각 보조 기기 제어에 필요한 음향 환경 특성을 효과적으로 포착한다는 것을 실험적으로 증명.
청각 보조 기기의 성능 향상을 위한 새로운 데이터셋(DEAR)과 벤치마크 제공.
다양한 음향 장면 분석 과제에 적용 가능한 범용 오디오 표현 모델의 가능성 제시.
한계점:
DEAR 데이터셋의 독점적인 독백 데이터 사용에 대한 투명성 부족.
평가된 모델의 종류가 제한적임 (4개 모델만 평가).
실제 청각 보조 기기 환경에서의 성능 검증 부족.
다양한 음향 환경 및 사용자 상황을 충분히 반영하지 못할 가능성.
👍