本論文では、Mozilla Common Voice 17.0、FLEURS、Vox Populiの3つの多言語音声データセットの品質監査結果を提示します。監査の結果、いくつかの言語で顕著な品質問題が発見されました。品質問題は、微視的レベルと巨視的レベルに分けられ、巨視的レベルの問題は制度化されておらず、リソースが不足している言語ではより一般的です。台湾南部民語(nan_tw)のケース分析は、辞書言語計画(表記法規則、方言境界定義など)とデータセット生成プロセスでの品質管理の必要性を強調します。将来のデータセット開発におけるこれらの問題を軽減するためのガイドラインと推奨事項を提示し、社会言語学的認識と言語計画の原則の重要性を強調します。さらに、この作成プロセス自体がコミュニティ主導の言語計画とアクティベーションツールとしてどのように活用できるかについての研究を奨励します。