Chunhui Zhang, Li Liu, Guanjie Huang, Zhipeng Zhang, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang
개요
본 논문은 수중 위장 대상 추적에 초점을 맞춘 최초의 대규모 다중 모드 데이터셋인 UW-COT220을 제안합니다. 기존의 대규모 객체 추적 데이터셋이 주로 야외 환경에 집중되어 수중 위장 동물 추적의 어려움을 간과한 점을 보완하기 위해 만들어졌습니다. UW-COT220 데이터셋을 기반으로 SAM 및 SAM2 기반 추적기 등 최신 시각적 객체 추적 방법들을 수중 환경(예: 산호초)에서 종합적으로 평가하고, SAM2가 수중 위장 객체의 복잡성을 처리하는 데 더 뛰어난 성능을 보임을 보여줍니다. 또한, 비디오 기반 모델 SAM2를 기반으로 한 새로운 시각-언어 추적 프레임워크인 VL-SAM2를 제안하고, 수중 및 야외 객체 추적 데이터셋에서 최첨단 성능을 달성함을 실험적으로 입증합니다. 데이터셋과 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
수중 위장 객체 추적을 위한 최초의 대규모 다중 모드 데이터셋(UW-COT220) 제시.
◦
SAM2 기반 추적기의 수중 환경에서의 우수성 확인.
◦
새로운 시각-언어 추적 프레임워크 VL-SAM2 제안 및 최첨단 성능 달성.
◦
수중 객체 추적 분야의 발전에 기여.
◦
공개된 데이터셋과 코드를 통한 연구의 재현성 및 확장성 증대.
•
한계점:
◦
데이터셋의 다양성 및 범용성에 대한 추가적인 검증 필요. (예: 다양한 종류의 수중 동물, 다양한 수중 환경 등)
◦
VL-SAM2의 성능 향상에 대한 추가적인 분석 필요. (예: 특정 환경이나 객체에 대한 성능 분석, 다른 방법과의 비교 분석)