본 논문은 청각 보조 기기의 효과적인 제어를 위해 사용자 주변의 음향 환경 이해가 중요함을 강조하며, 이를 위한 음향 장면 분석에 초점을 맞추고 있습니다. 최첨단 성능을 보이는 기반 모델(foundation model)을 이용하여 다목적이고 견고한 오디오 표현을 생성하는 방법을 제시합니다. 특히, 청각 보조 기기의 음향 특성 포착 능력을 평가하기 위한 최초의 데이터셋 및 벤치마크인 Deep Evaluation of Audio Representations (DEAR)을 소개하고 공개합니다. DEAR 데이터셋은 1,158개의 30초 길이 오디오 트랙으로 구성되며, 독점적인 독백과 고품질의 일상 생활 음향 장면 녹음을 공간적으로 혼합하여 생성되었습니다. 본 논문은 8가지 과제를 통해 오디오 장면의 일반적인 맥락, 음성 원천, 기술적인 음향 특성을 평가하고, 4가지 범용 오디오 표현 모델을 평가하여 BEATs 모델이 다른 모델보다 뛰어난 성능을 보임을 입증합니다. 이는 다양한 오디오 컬렉션으로 훈련된 모델의 장점과 청각 보조 기기 제어에 필요한 환경 특성 인코딩을 포함한 광범위한 청각 과제에 대한 적용 가능성을 확인합니다. DEAR 데이터셋과 관련 코드는 https://dear-dataset.github.io 에서 이용 가능합니다.