페르시아어 음성을 영어 음성으로 직접 번역하는 S2ST 시스템을 제안합니다. 이 시스템은 페르시아어-영어 병렬 음성 데이터 부족 문제를 해결하기 위해 대규모 언어 모델을 사용하여 페르시아어 텍스트를 영어 텍스트로 번역하고, 최첨단 zero-shot 텍스트-음성 변환 시스템을 사용하여 해당 영어 음성을 합성하여 새로운 페르시아어-영어 병렬 음성 코퍼스를 구축합니다. 이 모델은 셀프 슈퍼바이즈드 사전 학습된 conformer 기반 인코더, 상대적 위치 다중 헤드 어텐션을 사용한 인과적 변환기 디코더, 단위 기반 신경 보코더로 구성됩니다. 제안된 방법은 합성 데이터를 통해 CVSS 코퍼스의 페르시아어-영어 부분에서 직접적인 기준선보다 4.6 ASR BLEU 향상을 달성했습니다.