본 논문은 음성 전사 없이도 언어 간의 침묵 동기화를 활용하여 음성-음성 번역(S2ST)을 위한 운율 안내 프레임워크를 제시한다. 5개 언어의 6,000시간 동아프리카 뉴스 말뭉치 분석을 통해, 같은 어족에 속하는 언어 쌍은 다른 어족에 속하는 쌍에 비해 일시 정지 분산이 3040% 낮고 시작/종료 상관관계가 3배 이상 높다는 것을 보였다. 이러한 결과를 바탕으로, 침묵 일관성, 속도 동기화 및 의미 유사성을 통합하는 동적 프로그래밍 정렬 알고리즘인 SPaDA를 제안한다. SPaDA는 정렬 F1 점수를 34점 향상시키고 탐욕적 VAD 기준선에 비해 최대 38%의 잘못된 매칭을 제거한다. SPaDA로 정렬된 세그먼트를 사용하여, 고정된 의미 및 화자 인코더의 외부 기울기에 의해 안내되는 확산 기반 S2ST 모델인 SegUniDiff를 훈련시켰다. SegUniDiff는 BLEU 점수에서 향상된 캐스케이드 모델과 동등한 성능을 달성했으며(CVSS-C에서 30.3 대 UnitY의 28.9), 화자 오류율(EER)을 12.5%에서 5.3%로 줄였고, 실시간 비율(RTF)은 1.02를 기록했다. 저자원 환경에서의 평가를 지원하기 위해, 인간 판단과 강한 상관관계를 보이는 3단계 전사 없는 BLEU 모음(M1~M3)도 공개했다. 결과적으로, 다국어 음성의 운율적 단서가 확장 가능한 비자동회귀 S2ST를 위한 신뢰할 수 있는 기반을 제공함을 보여준다.