본 논문은 생물 다양성 모니터링 및 생태학적 평가를 위해 중요한 수중 생물체의 정확한 분할을 목표로 합니다. 기존 데이터셋과 모델이 육상 장면에 국한된 문제를 해결하고자, 255개의 카테고리와 2만 개 이상의 이미지를 포함하는 대규모의 세분화된 수중 분할 데이터셋인 AquaOV255를 소개합니다. 또한, AquaOV255를 포함한 5개의 수중 데이터셋을 통합하여 포괄적인 평가를 가능하게 하는 최초의 수중 OV (Open-Vocabulary) 분할 벤치마크인 UOVSBench를 구축했습니다. 더불어, 추가적인 수중 훈련 없이 육상 시각-언어 모델(VLM)을 수중 도메인으로 이전하는 훈련이 필요 없는 OV 분할 프레임워크인 Earth2Ocean을 제안합니다. Earth2Ocean은 국부 구조 인식을 위해 자기 유사성 기하학적 사전 정보를 통해 시각적 특징을 개선하는 기하학 기반 시각 마스크 생성기(GMG)와 멀티 모달 대규모 언어 모델 추론 및 장면 인식 템플릿 구성을 통해 텍스트 임베딩을 향상시키는 카테고리-시각적 의미론적 정렬(CSA) 모듈로 구성됩니다. UOVSBench 벤치마크에 대한 광범위한 실험 결과, Earth2Ocean이 효율적인 추론을 유지하면서 평균적으로 상당한 성능 향상을 달성했습니다.