본 논문은 다양한 녹음 장치에 대한 일반화 능력이 음향 분류 모델의 성능에 중요한 요소임을 다룹니다. 서로 다른 마이크의 특성은 주파수 응답의 차이로 인해 디지털화된 오디오 신호에 분포 변화를 일으키며, 이러한 도메인 변화를 훈련 과정에서 고려하지 않으면 보이지 않는 장치로 녹음된 신호에 모델을 적용할 때 성능이 크게 저하될 수 있습니다. 특히, 소수의 마이크로 녹음된 오디오 신호로 모델을 훈련하면 보이지 않는 장치에 대한 일반화가 어려워집니다. 이 문제를 해결하기 위해, 본 논문에서는 훈련 세트의 오디오 신호에 미리 녹음된 장치 임펄스 응답(DIR)을 컨볼루션하여 녹음 장치의 다양성을 인위적으로 높입니다. CNN과 Audio Spectrogram Transformers를 사용하여 음향 장면 분류 작업에서 DIR 증강의 효과를 체계적으로 연구합니다. 결과적으로, DIR 증강만으로도 최첨단 기법인 Freq-MixStyle과 유사한 성능을 보이며, DIR 증강과 Freq-MixStyle을 함께 사용하면 훈련 중에 보이지 않는 장치로 녹음된 신호에 대해 새로운 최첨단 성능을 달성함을 보여줍니다.