MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond
Created by
Haebom
저자
Muhammad Huzaifah, Geyu Lin, Tianchi Liu, Hardik B. Sailor, Kye Min Tan, Tarun K. Vangani, Qiongqiong Wang, Jeremy H. M. Wong, Jinyang Wu, Nancy F. Chen, Ai Ti Aw
개요
MERaLiON-SpeechEncoder는 싱가포르 국립 다중 모달 대규모 언어 모델 프로그램의 일환으로 개발된 기초 모델로, 다양한 하위 음성 응용 프로그램을 지원하도록 설계되었습니다. 주로 싱가포르에서 사용되는 영어를 지원하며, 향후 다른 언어 지원을 위해 데이터셋을 확장하고 있습니다. 20만 시간의 비표지 음성 데이터를 사용하여 마스크 언어 모델링 기반의 자기 지도 학습 방식으로 처음부터 사전 훈련되었습니다. 훈련 절차 및 하이퍼파라미터 튜닝 실험에 대한 자세한 내용이 포함되어 있으며, 음성 인식에 대한 즉흥적이고 싱가포르식 음성 벤치마크 개선을 보여주는 동시에 다른 10가지 음성 작업에서 최첨단 음성 인코더와 경쟁력을 유지합니다. 모델 공개를 통해 싱가포르 및 그 외 지역의 연구를 지원할 것을 약속합니다.
시사점, 한계점
•
시사점:
◦
싱가포르 및 동남아시아 지역의 음성 처리 요구사항에 맞춤화된 기초 모델 제공.
◦
20만 시간의 대규모 비표지 음성 데이터를 활용한 자기 지도 학습 기반의 효과적인 사전 훈련 방법 제시.