본 논문은 생물 음향 분야에서 레이블링된 데이터 부족 문제를 해결하기 위해 자기 지도 학습 기반의 새로운 음향 인식 아키텍처를 제안합니다. 기존의 CNN 기반 접근 방식의 한계(시간 정보 포착 어려움)를 극복하기 위해, CNN 전처리와 상태 공간 모델(SSM, S4 및 Mamba) 기반 특징 추출을 결합한 아키텍처를 설계했습니다. 실제 작업 데이터를 이용한 대조 학습 기반의 사전 학습과 소량의 레이블 데이터를 사용한 미세 조정을 통해, 표준 벤치마크 및 실제 데이터에서 우수한 성능을 보이는 $n$-shot, $n$-class 분류기를 구축했습니다. 특히, 소량의 레이블만으로도 높은 정확도를 달성하는 데 성공했습니다.