Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation

Created by
  • Haebom

作者

Qiuming Zhao, Guangzhi Sun, Chao Zhang

概要

この論文は、多言語音声テキスト(S2T)操作における言語多様性の問題を解決するために、低レベルおよび希少モデルマージ(LoRS-Merging)技術を提案します。従来の多言語多作業学習方式は、複数の言語にわたって複数の音声認識と翻訳作業を共同で最適化することを目指していますが、高い計算コスト、言語干渉、非最適学習構成、拡張性制限などの問題があります。 LoRS-Mergingは低階級と希少な剪定を組み合わせて、必須構造を維持しながら冗長パラメータを排除し、言語干渉を軽減し、スケーラビリティを向上させます。 10言語の実験結果、LoRS-Mergingは、多言語マルチタスク学習、逐次学習、および他のマージ方法よりも20%以上のパフォーマンスが向上することを示しています。したがって、LoRS-Mergingは、S2Tアプリケーションのための既存の多言語学習戦略のスケーラブルで効果的な補完責任を示唆しています。

Takeaways、Limitations

Takeaways:
LoRS-Merging技術は、多言語音声テキスト(S2T)操作のパフォーマンスを大幅に向上させることができることを実験的に実証しています。
既存の多言語多作業学習の計算コストと言語干渉問題を効果的に解決する代替提示
S2Tアプリケーションにおけるモデルマージの効率とスケーラビリティを示します。
様々な言語のモデルを効率的に統合する新しい方法を提示
Limitations:
提示された実験の言語範囲は限られているかもしれません(10の言語)。
LoRS-Merging技術の最適パラメータ設定に関するさらなる研究が必要です。
さまざまな音声データセットと操作の一般化パフォーマンスの追加検証が必要です。
他のモデルをマージする方法とのより詳細な比較分析が必要な場合がある。
👍