본 논문은 실시간 환경에서 단일 채널 잡음 억제를 위한 새로운 트랜스포머 기반 학습 프레임워크를 제시한다. 비정상 잡음 (예: 개 짖는 소리, 아기 울음소리)이 있는 실제 환경에서 기존 딥러닝 네트워크의 성능 저하 문제를 해결하기 위해, 하이브리드 ViT 프레임워크를 사용하여 이중 입력 음향-이미지 특징 융합을 제안한다. 제안된 프레임워크는 계산 효율적이며, 임베디드 장치에 적합하도록 설계되었다. Librispeech 데이터셋을 깨끗한 음성 소스로, UrbanSound8K 및 Google Audioset 데이터셋을 잡음 소스로 사용하여 실험한 결과, PESQ, STOI, Seg SNR, LLR 측정에서 잡음 감소, 음성 명료도 및 지각적 품질이 크게 향상되었으며, 깨끗한 기준 신호에 근접하는 성능을 보였다.