Yujie Lu, Yale Song, William Wang, Lorenzo Torresani, Tushar Nagarajan
개요
본 논문은 복잡한 비디오 질의응답(VideoQA)을 위해 연쇄적 증거 추론(chain-of-evidence reasoning)을 연구합니다. 이는 비디오의 여러 관련 부분에서 시간적 범위(temporal spans)의 시퀀스와 그 안의 시각적 증거를 식별하는 것을 의미합니다. 기존 모델들은 비디오 전체에 걸쳐 불균일하게 분포된 중요한 증거를 놓칠 수 있는 고정된 수의 프레임을 균일하게 샘플링하기 때문에 다단계 추론에 어려움을 겪습니다. 또한, 복잡한 질문에 답하기 위해 필요한 전체 비디오의 넓은 맥락에서 증거를 시간적으로 위치시키는 능력이 부족합니다. 본 논문에서는 주어진 질문에 답할 가능성을 극대화하는 비디오에서 최적의 관심 구간(intervals of interest)을 검색하여 자동으로 구성된 증거 추론 체인으로 기존 VideoQA 데이터셋을 향상시키는 프레임워크를 제안합니다. 제안된 모델(VITED)은 이러한 증거 체인을 직접 생성하도록 훈련되어 장편 비디오 콘텐츠에서 증거 창을 지역화하고 그에 걸쳐 다단계 추론을 수행할 수 있습니다. 장편 비디오 QA 벤치마크에서 증거 추론 기능이 없는 최첨단 접근 방식을 능가하는 성능을 보여줍니다.
시사점, 한계점
•
시사점:
◦
장편 비디오에서 복잡한 질문에 대한 답변을 위한 효과적인 연쇄적 증거 추론 프레임워크(VITED) 제시