Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond

Created by
  • Haebom

作者

Muhammad Huzaifah, Geyu Lin, Tianchi Liu, Hardik B. Sailor, Kye Min Tan, Tarun K. Vangani, Qiongqiong Wang, Jeremy HM Wong, Jinyang Wu, Nancy F. Chen, Ai Ti Aw

概要

MERaLiON-SpeechEncoderは、シンガポール国立マルチモーダル大規模言語モデルプログラムの一環として開発された基礎モデルで、さまざまなサブボイスアプリケーションをサポートするように設計されています。主にシンガポールで使用される英語をサポートし、今後他の言語サポートのためにデータセットを拡張しています。 20万時間の非標識音声データを使用して、マスク言語モデリングベースの自己地図学習方式で最初から事前訓練されました。トレーニング手順とハイパーパラメータのチューニング実験の詳細が含まれており、音声認識の即興でシンガポールの音声ベンチマークの改善を示すとともに、他の10の音声操作で最先端の音声エンコーダと競争力を維持します。モデルの開示を通じて、シンガポールおよびその他の地域の研究を支援することを約束します。

Takeaways、Limitations

Takeaways:
シンガポールおよび東南アジア地域の音声処理要件に合わせた基礎モデルを提供します。
20万時間の大規模非標識音声データを活用した自己地図学習ベースの効果的な事前訓練方法を提示
音声認識、特にシンガポール英語の音声認識性能の向上。
さまざまな音声操作で最先端のパフォーマンスを達成。
モデル公開による研究拡張支援
Limitations:
現在、主にシンガポール英語に集中しており、他の言語のサポートはまだ拡張中です。
さまざまな言語のデータセット拡張の必要性。
👍