본 논문은 비지도 학습 데이터만을 이용하여 자동 음성 인식(ASR) 성능을 향상시키는 자기 개선 프레임워크를 제안합니다. 기존 ASR 모델을 이용하여 비표기 음성 데이터에 의사 레이블을 생성하고, 이를 사용하여 고품질 음성 합성(TTS) 시스템을 학습시킵니다. 그 후, 합성된 음성-텍스트 쌍을 원래 ASR 시스템에 추가하여 자기 개선 주기를 완성합니다. 대만어 만다린어 음성 데이터를 사용하여 6,000시간의 비표기 음성 데이터, 적은 양의 텍스트 데이터, 그리고 AI 모델에서 생성된 합성 데이터를 활용하여 Whisper-large-v2 모델을 Twister라는 특화된 모델로 개선하였습니다. Twister는 만다린어 및 만다린어-영어 코드 전환 벤치마크에서 Whisper 대비 오류율을 최대 20%, 50%까지 감소시켰습니다. 이 결과는 제안된 프레임워크가 의사 레이블링 자기 증류 방식에 대한 매력적인 대안이며, 저자원 또는 특정 도메인 환경에서 ASR 성능을 향상시키는 실용적인 방법임을 보여줍니다.