MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
Created by
Haebom
저자
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
개요
본 논문은 해양 환경의 동적 특성, 카메라 움직임, 수중 장면의 복잡성으로 인해 해양 영상 이해가 어렵다는 점을 지적하며, 기존의 영상 캡션 데이터셋이 해양 환경의 복잡성을 고려하지 못한다는 한계를 극복하기 위해 두 단계의 해양 객체 지향적 영상 캡션 생성 파이프라인을 제안합니다. 영상, 텍스트, 분할 마스크의 세 가지 요소를 활용하여 시각적 근거와 캡션 생성을 용이하게 하는 종합적인 영상 이해 벤치마크를 제시하며, 장면 변화에서 중요한 객체 전환을 감지하기 위한 영상 분할의 효과를 강조합니다. 제안된 데이터셋과 코드는 https://msc.hkustvgd.com 에서 공개됩니다.