MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
Created by
Haebom
저자
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
개요
해양 영상은 해양 물체와 주변 환경의 역동성, 카메라 움직임, 수중 장면의 복잡성으로 인해 영상 이해에 상당한 어려움을 제시합니다. 일반적이거나 인간 중심적인 영역에 초점을 맞춘 기존의 영상 캡션 데이터셋은 해양 환경의 복잡성을 일반화하고 해양 생물에 대한 통찰력을 얻는 데 자주 실패합니다. 이러한 한계를 해결하기 위해, 본 논문에서는 2단계 해양 물체 지향적 영상 캡션 파이프라인을 제안합니다. 영상, 텍스트, 분할 마스크의 세 가지 요소를 활용하는 포괄적인 영상 이해 벤치마크를 도입하여 시각적 근거 및 캡션 생성을 용이하게 하여 해양 영상 이해 및 분석, 그리고 해양 영상 생성을 향상시킵니다. 또한, 장면 변화에서 중요한 물체 전환을 감지하기 위한 영상 분할의 효과를 강조하여 캡션 내용의 의미를 크게 풍부하게 합니다. 데이터셋과 코드는 https://msc.hkustvgd.com 에서 공개되었습니다.