해양 포유류 음성 감지 및 분류는 보존 및 관리 노력에 중요하지만, 제한된 주석 처리된 데이터 세트와 실제 해양 환경의 음향 복잡성으로 인해 어려움을 겪고 있습니다. 데이터 증강은 데이터 세트의 다양성을 높이고 추가 현장 데이터 없이 모델 일반화를 개선하여 이러한 제한 사항을 해결하는 효과적인 전략임이 입증되었습니다. 본 연구에서는 변동 오토인코더, 생성적 적대 신경망 및 디노이징 확산 확률 모델을 포함한 딥 생성 모델의 데이터 증강 가능성을 평가합니다. 살리시 해에서 장기적으로 배치된 두 개의 수중 음파 수신기로부터 얻은 남부 거주 범고래(Orcinus orca)의 음성을 사용하여, 이러한 접근 방식을 시간 이동 및 음성 마스킹과 같은 기존 증강 방법과 비교합니다. 모든 생성적 접근 방식은 기준선에 비해 분류 성능을 향상시켰으며, 확산 기반 증강이 가장 높은 재현율(0.87)과 전체 F1 점수(0.75)를 산출했습니다. 생성 기반 합성과 기존 방법을 결합한 하이브리드 전략이 F1 점수 0.81로 전체적으로 가장 우수한 성능을 달성했습니다.