본 논문은 IWSLT 2025 저자원 트랙에 참가한 KIT의 연구를 담고 있으며, Bemba, 북부 레반트 아랍어, 튀니지 아랍어에서 영어로의 음성 번역을 위해 자동 음성 인식(ASR) 및 기계 번역(MT) 모델을 결합한 계층적 시스템과 종단간(E2E) 음성 번역 시스템을 개발했다. 사전 훈련된 모델을 기반으로 다양한 전략을 통해 자원을 효율적으로 활용하고, 합성 데이터 및 모델 정규화를 통해 시스템을 개선했다. 특히 MT 모델을 사용하여 ASR 데이터에서 번역을 생성하는 MT-augmented ST, MT 데이터에서 합성 음성을 생성하는 텍스트 음성 변환(TTS) 모델을 사용한 보강, 내부 증류를 활용했다. 최종적으로, 최소 베이즈 위험(MBR) 디코딩을 통해 계층적 시스템과 종단간 시스템을 결합하여 성능을 향상시켰다.