Este artículo presenta un marco para abordar la calidad, la seguridad y las cuestiones éticas de los datos de entrenamiento para modelos lingüísticos a gran escala (LLM). En concreto, destacamos los desafíos que plantea la recopilación indiscriminada de conjuntos de datos a escala web, como Common Crawl, y proponemos un método para indexar y analizar conjuntos de datos de entrenamiento LLM mediante una canalización basada en ElasticSearch. Los resultados experimentales del corpus FineWeb-2 de SwissAI (1,5 TB, cuatro idiomas) demuestran que alcanza un rendimiento de búsqueda de milisegundos, lo que permite el análisis de conjuntos de datos en tiempo real. Esto proporciona una herramienta práctica que puede contribuir al desarrollo de sistemas de IA más seguros y responsables.