LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
Created by
Haebom
Category
Empty
저자
Zhenyu Yang, Kairui Zhang, Yuhang Hu, Bing Wang, Shengsheng Qian, Bin Wen, Fan Yang, Tingting Gao, Weiming Dong, Changsheng Xu
개요
LiveStar는 실시간 응답성을 개선하고 내러티브 일관성을 유지하기 위해 적응형 스트리밍 디코딩을 통해 항상 켜져 있는 사전 대응 응답을 달성하는 라이브 스트리밍 어시스턴트입니다. LiveStar는 가변 길이 비디오 스트림에 대한 점진적 비디오-언어 정렬을 가능하게 하는 훈련 전략, 단일 정방향 패스 검증을 통해 최적의 사전 대응 응답 타이밍을 결정하는 응답-침묵 디코딩 프레임워크, 10분 이상의 비디오에 대한 온라인 추론을 위한 피크-엔드 메모리 압축을 통한 메모리 인식 가속, 스트리밍 키-값 캐시를 포함합니다. 또한, 15개의 다양한 실제 시나리오와 온라인 비디오 이해를 위한 5개의 평가 작업을 포함하는 포괄적인 OmniStar 데이터 세트를 구축했습니다.
시사점, 한계점
•
온라인 비디오 이해를 위한 기존 Video-LLM의 한계를 해결하기 위해 적응형 스트리밍 디코딩을 활용하는 라이브 스트리밍 어시스턴트 LiveStar 제안
•
점진적 비디오-언어 정렬, 응답-침묵 디코딩 프레임워크, 메모리 인식 가속, 스트리밍 키-값 캐시 등 혁신적인 기술 도입
•
OmniStar 데이터 세트를 구축하여 모델 훈련 및 벤치마킹
•
기존 온라인 Video-LLM 대비 의미적 정확도 19.5% 향상, 타이밍 차이 18.1% 감소, FPS 12.0% 향상