본 논문은 대규모 언어 모델(LLM)로 생성된 영어 및 체코어 텍스트로 구성된 두 개의 코퍼스를 제시한다. 이 코퍼스는 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 언어학적으로 비교하기 위한 자원으로서, 다양한 장르, 주제, 작가, 텍스트 유형을 포함하며 기존의 인간 생성 코퍼스와의 비교 가능성을 유지하는 데 중점을 두었다. 생성된 코퍼스는 Paul Baker의 BE21 (Brown Corpus의 현대적 버전)과 체코어 Brown Corpus 전통을 따르는 Koditex 코퍼스를 모방한다. OpenAI, Anthropic, Alphabet, Meta, DeepSeek의 GPT-3 (davinci-002)부터 GPT-4.5까지 다양한 모델을 사용하여 생성되었으며, Universal Dependencies 표준에 따라 토큰화, 표제어화, 형태적 및 구문론적 주석을 포함한다. 하위 코퍼스 크기는 모델에 따라 다르며, 영어 부분은 모델당 평균 864,000 토큰 (총 2,700만 토큰), 체코어 부분은 모델당 평균 768,000 토큰 (총 2,150만 토큰)을 포함한다. 이 코퍼스는 CC BY 4.0 라이선스 하에 무료로 다운로드할 수 있으며 (주석 처리된 데이터는 CC BY-NC-SA 4.0 라이선스), 체코 국립 코퍼스 검색 인터페이스를 통해 접근할 수 있다.