본 논문은 사전 훈련 데이터의 품질과 크기를 향상시키는 것이 다운스트림 성능을 향상시키는 것으로 알려져 있지만, 텍스트의 복잡성(읽기 난이도)이 미치는 영향은 상대적으로 덜 연구되었다는 점에 착안하여 연구를 수행했다. 표면적 복잡성을 줄이는 방식으로, 즉 짧은 문장, 쉬운 단어, 단순한 구조를 사용하되 핵심 내용은 거의 동일하게 유지하면서, (i) 텍스트 복잡성이 다양한 모델 크기에 어떻게 영향을 미치는지, (ii) 단순한 텍스트만으로 유용한 표현을 학습할 수 있는지, (iii) 사전 훈련 텍스트 복잡성이 다운스트림 언어 이해에 어떤 영향을 미치는지를 연구했다. 이를 위해 대형 언어 모델을 사용하여 인간이 작성한 텍스트를 단순화하고, 인과 모델(28M-500M)을 원본 데이터와 단순화된 데이터를 사용하여 처음부터 사전 훈련한 후, 미세 조정 및 제로 샷 설정에서 평가했다.