최근 주목받는 음성 기반 모델의 성능 향상을 위해, 동일 모델 내 여러 레이어의 표현 융합 또는 여러 모델 융합 방식이 연구되어 왔다. 본 연구는 이러한 두 가지 융합 전략을 통합하여, 여러 음성 모델의 레이어 간 정보를 융합하는 인터페이스 모듈을 제안한다. ASR 및 부언어 분석을 포함한 다양한 음성 task에서 다양한 자가 지도 학습 및 지도 학습 모델에 대한 광범위한 실험을 통해, 제안된 방법이 기존 융합 방식을 능가함을 입증했다. 또한, 모델 크기 및 수에 따른 확장성을 분석하여 적절한 상위 모델 선택의 중요성을 강조했다.