음성 기반 우울증 감지는 전통적인 임상 평가의 대안으로 유망하지만, 의미 있는 특징 추출의 어려움과 시간 경과에 따른 희소하고 이질적인 우울 증상 포착의 한계가 있다. WavLM과 같은 사전 훈련된 자기 지도 학습(SSL) 모델은 풍부한 다층 음성 표현을 제공하지만, 기존 SDD 방법은 마지막 레이어만 사용하거나 단일 최고의 레이어를 찾는 데 의존한다. 이러한 접근 방식은 특정 데이터 세트에 과적합되고 미묘하고 지속적인 우울 신호를 감지하는 데 필요한 전체 계층적 구조를 활용하지 못한다. 본 논문에서는 다중 레이어 SSL 특징을 멀티태스크 학습 프레임워크 내에서 교차 주의를 사용하여 통합하고, 희소한 시간적 감독을 처리하기 위해 Connectionist Temporal Classification(CTC) 손실을 결합한 새로운 아키텍처인 HAREN-CTC를 제안한다. HAREN-CTC는 SSL 특징을 보완적인 임베딩으로 재구성하는 계층적 적응형 클러스터링 모듈과, 교차 주의를 통해 레이어 간 종속성을 모델링하는 교차 모달 융합 모듈로 구성된다. CTC 목표는 정렬 인식 훈련을 가능하게 하여, 모델이 우울증 음성 신호의 불규칙한 시간적 패턴을 추적할 수 있게 한다. DAIC-WOZ에서 0.81, MODMA에서 0.82의 최고 수준의 매크로 F1 점수를 달성하여 기존 방법을 능가했다.