Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unifying Model and Layer Fusion for Speech Foundation Models

Created by
  • Haebom
Category
Empty

저자

Yi-Jen Shih, David Harwath

개요

최근 주목받는 음성 기반 모델의 성능 향상을 위해, 동일 모델 내 여러 레이어의 표현 융합 또는 여러 모델 융합 방식이 연구되어 왔다. 본 연구는 이러한 두 가지 융합 전략을 통합하여, 여러 음성 모델의 레이어 간 정보를 융합하는 인터페이스 모듈을 제안한다. ASR 및 부언어 분석을 포함한 다양한 음성 task에서 다양한 자가 지도 학습 및 지도 학습 모델에 대한 광범위한 실험을 통해, 제안된 방법이 기존 융합 방식을 능가함을 입증했다. 또한, 모델 크기 및 수에 따른 확장성을 분석하여 적절한 상위 모델 선택의 중요성을 강조했다.

시사점, 한계점

다수의 음성 모델을 융합하고 레이어 간 정보를 통합하는 인터페이스 모듈 제안
ASR 및 부언어 분석 등 다양한 음성 task에서 기존 융합 방식보다 우수한 성능 달성
모델 크기 및 수에 따른 확장성 분석을 통해 적절한 상위 모델 선택의 중요성 제시
적절한 상위 모델 선택 시 추가적인 성능 향상 가능성 제시
구체적인 한계점은 논문에서 명시되지 않음
👍