Sign In

InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model

Created by
  • Haebom
Category
Empty

저자

Siqi Ouyang, Xi Xu, Lei Li

개요

InfiniSST는 제한 없는 연속 음성의 동시 통역을 위한 새로운 접근 방식을 제안합니다. 기존 연구들이 미리 분할된 음성을 가정하는 것과 달리, InfiniSST는 동시 통역을 다회차 대화 과제로 공식화하여 제한 없는 음성의 매끄러운 번역을 가능하게 합니다. MuST-C 데이터셋을 사용하여 다양한 지연 시간 증강을 통해 번역 경로와 강건한 세그먼트를 생성하고, 효율적인 추론을 위해 키-값(KV) 캐시 관리 전략을 개발했습니다. MuST-C En-Es, En-De, En-Zh에 대한 실험 결과, InfiniSST는 기준 모델과 동일한 번역 품질을 유지하면서 계산 고려 지연 시간을 0.5~1초 단축했습니다. 추가적인 ablation study를 통해 데이터 구성 및 캐시 관리 전략의 기여도를 검증했습니다. 코드는 https://github.com/LeiLiLab/InfiniSST 에서 공개됩니다.

시사점, 한계점

시사점:
제한 없는 연속 음성에 대한 실시간 동시 통역의 효율성을 높였습니다.
계산 고려 지연 시간을 0.5~1초 단축하면서 동일한 번역 품질을 유지했습니다.
효율적인 추론을 위한 새로운 키-값 캐시 관리 전략을 제시했습니다.
다회차 대화 과제로서 동시 통역을 공식화하는 새로운 접근 방식을 제안했습니다.
MuST-C 데이터셋을 활용한 다양한 지연 시간 증강 기법을 제시했습니다.
소스 코드를 공개하여 재현성을 높였습니다.
한계점:
MuST-C 데이터셋에 대한 의존성이 높습니다. 다른 데이터셋으로의 일반화 성능 검증이 필요합니다.
제시된 KV 캐시 관리 전략의 최적화 가능성에 대한 추가 연구가 필요합니다.
실제 환경에서의 다양한 노이즈 및 음질 저하에 대한 로버스트니스에 대한 추가적인 검증이 필요합니다.
지연 시간 단축 효과가 데이터셋 및 언어 조합에 따라 달라질 수 있습니다.
👍