本稿では、大規模言語モデル(LLM)のトレーニングデータの品質、安全性、倫理的問題を解決するためのフレームワークを紹介します。具体的には、Common CrawlなどのWebスケールデータセットの無分別な収集による問題を指摘し、ElasticSearchベースのパイプラインを使用してLLMトレーニングデータセットを索引付けして分析する方法を提案します。 SwissAI's FineWeb-2コーパス(1.5TB、4言語)を対象に実験した結果、ミリ秒単位の高速検索性能を達成してリアルタイムデータセット分析が可能になることを示しています。これにより、より安全で責任あるAIシステムの開発に貢献できる実用的なツールが提供されます。