InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model
Created by
Haebom
Category
Empty
저자
Siqi Ouyang, Xi Xu, Lei Li
개요
InfiniSST는 제한 없는 연속 음성의 동시 통역을 위한 새로운 접근 방식을 제안합니다. 기존 연구들이 미리 분할된 음성을 가정하는 것과 달리, InfiniSST는 동시 통역을 다회차 대화 과제로 공식화하여 제한 없는 음성의 매끄러운 번역을 가능하게 합니다. MuST-C 데이터셋을 사용하여 다양한 지연 시간 증강을 통해 번역 경로와 강건한 세그먼트를 생성하고, 효율적인 추론을 위해 키-값(KV) 캐시 관리 전략을 개발했습니다. MuST-C En-Es, En-De, En-Zh에 대한 실험 결과, InfiniSST는 기준 모델과 동일한 번역 품질을 유지하면서 계산 고려 지연 시간을 0.5~1초 단축했습니다. 추가적인 ablation study를 통해 데이터 구성 및 캐시 관리 전략의 기여도를 검증했습니다. 코드는 https://github.com/LeiLiLab/InfiniSST 에서 공개됩니다.