Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning

Created by
  • Haebom

作者

Mingfei Lau, Qian Chen, Yeming Fang, Tingting Xu, Tongzhou Chen, Pavel Golik

概要

本論文では、Mozilla Common Voice 17.0、FLEURS、Vox Populiの3つの多言語音声データセットの品質監査結果を提示します。監査の結果、いくつかの言語で顕著な品質問題が発見されました。品質問題は、微視的レベルと巨視的レベルに分けられ、巨視的レベルの問題は制度化されておらず、リソースが不足している言語ではより一般的です。台湾南部民語(nan_tw)のケース分析は、辞書言語計画(表記法規則、方言境界定義など)とデータセット生成プロセスでの品質管理の必要性を強調します。将来のデータセット開発におけるこれらの問題を軽減するためのガイドラインと推奨事項を提示し、社会言語学的認識と言語計画の原則の重要性を強調します。さらに、この作成プロセス自体がコミュニティ主導の言語計画とアクティベーションツールとしてどのように活用できるかについての研究を奨励します。

Takeaways、Limitations

Takeaways:
多言語音声データセットの品質問題が下位課題評価結果に深刻な影響を及ぼす可能性があることを示した。
資源不足言語における巨視的レベルの品質問題がより深刻であることを強調する。
辞書言語計画と改善されたデータ品質管理の重要性を強調する。
データセットの作成プロセスをコミュニティ主導の言語計画およびアクティベーションツールとして利用できる可能性を提示します。
Limitations:
分析対象データセットは3つに制限されています。
特定の言語(台湾南部民語)のケース分析に偏ります。
提示されたガイダンスと推奨事項の具体的な実施方法の欠如。
👍