본 논문은 오픈소스 자동 음성 인식 시스템인 Whisper 모델의 환각 오류를 해결하기 위한 방법을 제시한다. 특히 잡음 환경에서의 성능 저하 문제를 해결하고자, Adaptive Layer Attention (ALA)을 활용하여 인코더의 강건성을 향상시키고, multi-objective knowledge distillation (KD) 프레임워크를 통해 환각을 억제하는 2단계 아키텍처를 제안한다. ALA는 인코더 레이어를 의미적으로 일관된 블록으로 그룹화하고, multi-head attention 모듈을 통해 저수준 및 고수준 특징을 결합하여 보다 강력한 인코딩을 수행한다. KD 프레임워크는 학생 모델이 깨끗한 입력의 교사 모델과 의미 및 주의 분포를 일치시키도록 학습시킨다. 잡음 환경에서의 실험을 통해 환각 감소와 단어 오류율 감소를 확인했으며, 깨끗한 음성 데이터에 대한 성능은 유지했다.