심음 해석 분야의 숙련된 임상 의사 부족 문제를 해결하기 위해 심음 자동화에 대한 연구가 진행되었으며, 딥러닝 기반의 지도 학습 방법이 주로 사용되었으나, 훈련 데이터의 제약이 존재했다. 최근에는 사전 훈련된 자기 지도 오디오 기반 모델의 활용에 대한 관심이 높아지고 있지만, 계산 비용이 높다는 단점이 있다. 본 연구에서는 심잡음 감지를 위한 훈련이 필요 없는 새로운 Transformer 아키텍처인 Scattering Transformer를 제안하여 이러한 문제점을 해결하고자 했다. 웨이블릿 산란 네트워크를 활용하고, Transformer와 유사한 구조를 통해 컨텍스트 의존성을 도입했다. CirCor DigiScope 데이터셋을 이용하여 일반적인 오디오 기반 모델과 비교 평가한 결과, Scattering Transformer는 WAR 0.786, UAR 0.697을 달성하며 기존 방법론과 경쟁력 있는 성능을 보여주었다. 이는 자원 제약적인 환경에서 Scattering Transformer가 유망한 대안이 될 수 있음을 시사한다.