본 논문은 음성-음성 번역(S2ST)을 위한 운율 안내 프레임워크를 제시합니다. 이 프레임워크는 언어 간 휴지 동기화를 활용하여 전사 없이 음성을 정렬하고 번역합니다. 5개 언어에 걸친 6,000시간 규모의 동아프리카 뉴스 말뭉치를 분석하여, 같은 어족에 속하는 언어 쌍은 다른 어족에 속하는 쌍보다 휴지 분산이 3040% 낮고, 시작/종료 상관관계가 3배 이상 높다는 것을 보여줍니다. 이러한 결과는 침묵 일관성, 속도 동기화 및 의미 유사성을 통합하는 동적 프로그래밍 정렬 알고리즘인 SPaDA를 제시하게 했습니다. SPaDA는 정렬 F1 점수를 34점 향상시키고, 탐욕적 VAD 기준선에 비해 최대 38%의 잘못된 매칭을 제거합니다. SPaDA로 정렬된 세그먼트를 사용하여, 고정된 의미 및 화자 인코더의 외부 기울기를 사용하여 안내되는 확산 기반 S2ST 모델인 SegUniDiff를 훈련합니다. SegUniDiff는 BLEU 점수에서 향상된 캐스케이드 모델과 동등한 성능을 보이며 (CVSS-C에서 30.3 대 UnitY의 28.9), 화자 오류율(EER)을 12.5%에서 5.3%로 줄이고, 1.02의 실시간 비율(RTF)로 실행됩니다. 저자원 환경에서의 평가를 지원하기 위해, 인간 판단과 강한 상관관계를 갖는 3단계 전사 없는 BLEU 평가 세트(M1~M3)도 공개합니다. 결과적으로, 다국어 음성의 운율적 단서는 확장 가능하고 비자동회귀적인 S2ST를 위한 신뢰할 수 있는 기반을 제공함을 보여줍니다.