본 논문은 실제 환경의 다양한 소리에 대한 강건한 공간 오디오 표현 학습을 가능하게 하는 새로운 자기 지도 학습 방식인 GRAM(General-Purpose, Real-world Audio Models)을 제안합니다. GRAM은 마스킹 기반 딥러닝 모델에 적용 가능하며, 변환기(transformer)와 맘바(mamba) 백본을 사용한 두 가지 최첨단 모델에 적용되어 HEAR 벤치마크 및 새로운 음원 위치 파악 작업에서 평가되었습니다. 기존 최첨단 오디오 기반 모델보다 적은 학습 단계로 건조하고 공간 정보가 없는 단일 음원과 실제 환경의 소리 간 성능 차이를 최소화하며, 특히 청각 장면 분석과 음원 위치 파악에서 최첨단 성능을 달성했습니다. 이는 실제 응용 분야를 위한 강건한 오디오 기반 모델 개발에 중요한 진전을 의미합니다.