Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

Created by
  • Haebom

저자

Eddison Pham, Prisha Priyadarshini, Adrian Maliackel, Kanishk Bandi, Cristian Meo, Kevin Zhu

개요

본 논문은 시각적 단서와 시간적 구조에 대한 이해를 요구하는 교육용 비디오의 장면 수준 캡셔닝을 통해 학습을 향상시키는 것을 목표로 한다. DynaStride라는 파이프라인을 도입하여 수동 장면 분할 없이 일관된 장면 수준 캡션을 생성한다. YouCookII 데이터셋의 장면 주석을 활용하여 적응형 프레임 샘플링 및 멀티모달 윈도잉을 수행하고, 동적 스트라이드 윈도우 선택 알고리즘을 사용하여 시간적 맥락과 중복성을 균형 있게 조절한다. 결과적으로 시각적 의미론과 시간적 추론을 통합한 교육적 캡션을 생성하며, VLLaMA3 및 GPT-4o를 포함한 강력한 기준선 대비 일관된 성능 향상을 보였다.

시사점, 한계점

교육용 비디오 캡셔닝을 통해 학습 효과를 증진시키는 새로운 접근 방식 제시
수동 장면 분할 없이 일관된 캡션 생성 가능
다양한 평가 지표(N-gram 기반, 의미 유사성)에서 우수한 성능 입증
시간적 일관성 및 정보 제공 측면에서 개선된 캡션 생성
YouCookII 데이터셋의 장면 주석에 의존
알고리즘의 일반화 가능성 추가 연구 필요
자세한 시각적 특징 및 시간적 관계를 모두 캡션에 담아내기 위한 추가 개선 여지 존재
👍