DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning
Created by
Haebom
저자
Eddison Pham, Prisha Priyadarshini, Adrian Maliackel, Kanishk Bandi, Cristian Meo, Kevin Zhu
개요
본 논문은 시각적 단서와 시간적 구조에 대한 이해를 요구하는 교육용 비디오의 장면 수준 캡셔닝을 통해 학습을 향상시키는 것을 목표로 한다. DynaStride라는 파이프라인을 도입하여 수동 장면 분할 없이 일관된 장면 수준 캡션을 생성한다. YouCookII 데이터셋의 장면 주석을 활용하여 적응형 프레임 샘플링 및 멀티모달 윈도잉을 수행하고, 동적 스트라이드 윈도우 선택 알고리즘을 사용하여 시간적 맥락과 중복성을 균형 있게 조절한다. 결과적으로 시각적 의미론과 시간적 추론을 통합한 교육적 캡션을 생성하며, VLLaMA3 및 GPT-4o를 포함한 강력한 기준선 대비 일관된 성능 향상을 보였다.