MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
Created by
Haebom
저자
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
개요
본 논문은 해양 환경의 동적인 특징, 카메라 움직임, 수중 장면의 복잡성으로 인해 어려움을 겪는 해양 영상 이해 문제를 다룹니다. 기존의 영상 캡션 데이터셋은 일반적이거나 인간 중심적인 영역에 초점을 맞춰 해양 환경의 복잡성에 일반화되지 못하고 해양 생물에 대한 통찰력을 얻는 데 실패하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 본 논문은 두 단계의 해양 객체 지향적 영상 캡션 파이프라인을 제안합니다. 영상, 텍스트, 분할 마스크의 세 가지 요소를 활용하는 포괄적인 영상 이해 벤치마크를 소개하여 시각적 근거 및 캡션 생성을 용이하게 합니다. 이를 통해 해양 영상 이해 및 분석, 그리고 해양 영상 생성을 향상시킵니다. 또한, 장면 변화에서 중요한 객체 전환을 감지하기 위한 영상 분할의 효과를 강조하여 캡션 내용의 의미를 크게 풍부하게 합니다. 데이터셋과 코드는 https://msc.hkustvgd.com 에서 공개되었습니다.