본 논문은 반향 및 노이즈가 있는 실제 음향 환경에서의 오디오 모델의 한계를 해결하기 위해, 다중 채널 마스크 오토인코더 접근 방식을 활용하여 공간 오디오 표현을 학습하는 GRAM(General-purpose Real-world Audio Model)을 제안합니다. 고품질 시뮬레이션된 실제 장면에서 학습된 GRAM은 새로운 사운드 로컬라이제이션 작업을 포함하는 Nat-HEAR 벤치마크에서 기존의 최첨단 오디오 모델보다 뛰어난 성능을 보였습니다. GRAM은 두 채널 또는 네 채널 형식으로 유연하게 적용될 수 있으며, 실제 음향 녹음에 대한 강건한 전송 성능을 보여줍니다.