Bài báo này trình bày một khuôn khổ để giải quyết các vấn đề về chất lượng, an toàn và đạo đức của dữ liệu đào tạo đối với các mô hình ngôn ngữ quy mô lớn (LLM). Cụ thể, chúng tôi nêu bật những thách thức do việc thu thập dữ liệu quy mô web một cách bừa bãi, chẳng hạn như Common Crawl, và đề xuất một phương pháp lập chỉ mục và phân tích dữ liệu đào tạo LLM bằng cách sử dụng quy trình dựa trên ElasticSearch. Kết quả thử nghiệm trên kho dữ liệu FineWeb-2 của SwissAI (1,5 TB, bốn ngôn ngữ) chứng minh rằng nó đạt được hiệu suất tìm kiếm ở mức mili giây, cho phép phân tích dữ liệu theo thời gian thực. Điều này cung cấp một công cụ thiết thực có thể góp phần vào việc phát triển các hệ thống AI an toàn và có trách nhiệm hơn.