Sign In

Weakly Supervised Multiple Instance Learning for Whale Call Detection and Localization in Long-Duration Passive Acoustic Monitoring

Created by
  • Haebom
Category
Empty

저자

Ragib Amin Nihal, Benjamin Yen, Runwu Shi, Kazuhiro Nakadai

개요

해양 생태계 모니터링을 위한 수동 음향 모니터링(PAM)은 방대한 데이터를 생성하지만, 심층 학습은 종종 정확한 주석과 짧은 세그먼트를 필요로 합니다. 본 논문에서는 가방 수준 레이블만을 사용하여 고래 울음소리 검출 및 위치 파악을 위한 다중 인스턴스 학습 프레임워크인 DSMIL-LocNet을 소개합니다. 이 이중 스트림 모델은 주의 기반 인스턴스 선택을 사용하여 스펙트럼 및 시간적 특징을 활용하여 2~30분의 오디오 세그먼트를 처리합니다. 남극 고래 데이터에 대한 테스트 결과, 더 긴 컨텍스트는 분류 성능(F1: 0.8-0.9)을 향상시키는 반면, 중간 인스턴스는 위치 정확도(0.65-0.70)를 보장합니다. 이는 MIL이 확장 가능한 해양 모니터링을 향상시킬 수 있음을 시사합니다. 소스 코드는 GitHub에서 제공됩니다.

시사점, 한계점

시사점:
가방 수준 레이블만을 사용하여 고래 울음소리 검출 및 위치 파악이 가능한 DSMIL-LocNet 프레임워크 제시.
긴 오디오 세그먼트(2-30분) 처리를 통한 효율적인 해양 모니터링 가능성 제시.
주의 기반 인스턴스 선택을 통한 위치 정확도 향상.
MIL 기반 접근 방식이 확장 가능한 해양 모니터링에 기여할 수 있음을 증명.
한계점:
남극 고래 데이터에 대한 테스트 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.
다양한 종류의 고래 울음소리에 대한 성능 평가가 추가적으로 필요.
실제 해양 환경에서의 실시간 처리 성능 및 안정성에 대한 평가 필요.
👍