본 논문은 해양 생태계의 지속가능성을 위협하는 해양 소음 오염의 심각성을 고려하여, 대량의 수중 음향 기록 데이터 분석에 대한 자동화 필요성을 제기한다. 기존의 기계 학습 기법은 레이블링된 데이터에 의존하지만, 수중 음향 기록 데이터는 대부분 레이블이 없다는 한계를 지닌다. 따라서 본 논문에서는 미지의 수중 음향 데이터를 활용하여 자가 지도 학습 모델을 효과적으로 학습시키기 위한 전 자동화된 데이터 정제 파이프라인을 제안한다. 미국 해역의 다양한 수중 청음기로부터 수집된 원시 PAM 데이터와 AIS 데이터를 통합하여 계층적 k-means 군집화를 통해 균형 있고 다양한 데이터셋을 생성한다. 이렇게 생성된 데이터셋은 해양 포유류 모니터링 및 소음 오염 평가 등 다양한 작업에 활용 가능한 자가 지도 학습 모델 개발을 가능하게 한다.