본 논문은 사전 훈련된 언어 모델의 등장과 이 모델들의 확장 법칙 발견으로 인해 대규모 텍스트 말뭉치에 대한 수요가 증가함에 따라, 소수 언어를 포함하는 대규모 말뭉치의 필요성을 강조합니다. 기존 말뭉치들은 주로 주요 언어에만 집중되어 있으나, 본 논문에서는 1000개 이상의 언어를 포함하고, 오픈소스 재현 가능한 파이프라인을 통해 생성되며, 엄격한 노이즈 제거 과정을 거친 2TB 규모의 청결한 문서 수준 일반 도메인 말뭉치인 GlotCC를 제시합니다. GlotCC와 그 생성에 사용된 시스템(파이프라인, 언어 식별 모델, 필터 포함)을 연구 공동체에 공개합니다.