본 논문은 스트리밍 비디오 추론에서의 계산 부담과 무관한 정보로 인한 모델 성능 저하 문제를 해결하기 위해 새로운 과제인 Context-guided Streaming Video Reasoning (CogStream)을 제시합니다. CogStream은 실제 스트리밍 비디오 시나리오를 모방하여 모델이 현재 스트림에 대한 질문에 답하기 위해 가장 관련성 있는 과거 정보를 식별해야 합니다. 이를 위해 논문에서는 반자동 파이프라인을 통해 생성된 방대한 계층적 질의응답 쌍을 포함하는 밀집 주석 데이터셋과, 시각적 스트림 압축 및 과거 대화 검색을 활용하여 효율적으로 과제를 해결하는 기준 모델인 CogReasoner를 제시합니다. 실험 결과는 제안된 방법의 효과를 입증하며, 관련 프로젝트는 깃허브에 공개되었습니다.
시사점, 한계점
•
시사점:
◦
스트리밍 비디오 추론에서의 계산 부담 및 무관한 정보 문제를 효과적으로 해결하는 새로운 과제(CogStream)와 데이터셋 제시.
◦
효율적인 추론을 위한 새로운 기준 모델(CogReasoner) 제시 및 성능 검증.
◦
실제 스트리밍 비디오 시나리오를 반영한 더욱 현실적인 평가 기준 제시.
◦
공개된 데이터셋과 코드를 통해 향후 연구의 발전에 기여.
•
한계점:
◦
CogReasoner 모델의 일반화 성능 및 다양한 비디오 유형에 대한 성능 검증이 추가적으로 필요.
◦
데이터셋의 규모 및 다양성에 대한 한계. 더욱 다양하고 대규모의 데이터셋 확보가 필요.
◦
실제 세계의 복잡한 상황을 완벽하게 반영하지 못할 가능성.
◦
제시된 방법의 확장성 및 다른 Vid-LLM 모델에 대한 적용 가능성에 대한 추가 연구 필요.