본 논문은 기존의 음성-음성 번역(S2ST) 연구가 언어 번역 또는 억양 조절 중 하나에만 집중하는 것과 달리, 두 가지 측면을 동시에 처리하는 통합 접근 방식을 제시합니다. 즉, 내용 번역과 함께 화자의 억양을 목표 언어 환경에 맞추는 작업을 동시에 수행하는 것을 목표로 합니다. 이를 위해, 음소와 목표 음성 특징을 기반으로 목표 음성을 생성하는 조건부 생성 작업으로 문제를 재구성하고, 고품질 생성 능력으로 알려진 확산 모델을 활용하여 텍스트-이미지 확산 전략을 적용합니다. 소스 음성 전사를 조건으로 하여 목표 언어의 어휘적 및 억양적 특성을 갖는 Mel 스펙트로그램을 생성함으로써 번역과 억양 조절을 통합적으로 최적화합니다. 기존의 파이프라인 방식보다 매개변수 효율성과 효과성이 높은 모델을 제시합니다.