본 논문은 실시간, 온디바이스 비디오 더빙 시나리오를 위해 효율적인 음성 번역 정렬 방법을 제시한다. 음소 기반의 end-to-end 길이 민감형 음성 번역(LSST) 모델을 개발하여 미리 정의된 태그를 사용하여 짧음, 보통, 긴 길이의 번역을 생성한다. 또한, 단일 디코딩 패스에서 다양한 길이의 번역을 생성하는 효율적인 길이 인식 빔 서치(LABS) 기법을 도입하였다. 이는 길이 인식 기능이 없는 기준 모델과 비교하여 BLEU 점수는 유사하게 유지하면서, 원본 및 대상 오디오 간의 동기화 품질을 크게 향상시켰으며, 스페인어의 경우 0.34, 한국어의 경우 0.65의 MOS 점수 향상을 달성하였다.