해양 생태계 모니터링을 위한 수동 음향 모니터링(PAM)은 방대한 데이터를 생성하지만, 심층 학습은 종종 정확한 주석과 짧은 세그먼트를 필요로 합니다. 본 논문에서는 가방 수준 레이블만을 사용하여 고래 울음소리 검출 및 위치 파악을 위한 다중 인스턴스 학습 프레임워크인 DSMIL-LocNet을 소개합니다. 이 이중 스트림 모델은 주의 기반 인스턴스 선택을 사용하여 스펙트럼 및 시간적 특징을 활용하여 2~30분의 오디오 세그먼트를 처리합니다. 남극 고래 데이터에 대한 테스트 결과, 더 긴 컨텍스트는 분류 성능(F1: 0.8-0.9)을 향상시키는 반면, 중간 인스턴스는 위치 정확도(0.65-0.70)를 보장합니다. 이는 MIL이 확장 가능한 해양 모니터링을 향상시킬 수 있음을 시사합니다. 소스 코드는 GitHub에서 제공됩니다.