본 논문은 Transformer 기반 음성 향상 모델의 복잡성과 하드웨어 비효율성 문제를 해결하기 위해 모델 및 하드웨어 최적화를 통한 저전력 스트리밍 음성 향상 가속기를 제안한다. 도메인 인식 및 스트리밍 인식 가지치기 기법을 통해 모델 크기를 93.9% 감소시키고, 배치 정규화 기반 Transformer와 softmax-free attention을 사용하여 지연 시간을 줄였다. 요소별 곱셈 및 누적(MAC) 연산을 위한 1차원 처리 배열과 구성 가능한 SRAM 어드레싱을 활용하여 하드웨어 복잡성을 최소화하였다. TSMC 40nm CMOS 공정을 사용하여 207.8K 게이트와 53.75KB SRAM으로 구현되었으며, 62.5MHz 주파수에서 실시간 추론 시 8.08mW의 전력을 소모한다.