Este artículo se centra en el hecho de que, si bien se sabe que mejorar la calidad y el tamaño de los datos de preentrenamiento mejora el rendimiento posterior, el impacto de la complejidad del texto (dificultad de lectura) ha sido relativamente menos estudiado. Al reducir la complejidad superficial (es decir, usar oraciones más cortas, palabras más fáciles y estructuras más simples, manteniendo un contenido central en gran medida consistente), estudiamos (i) cómo la complejidad del texto afecta a varios tamaños de modelo, (ii) si se pueden aprender representaciones útiles solo a partir de texto simple, y (iii) cómo la complejidad del texto de preentrenamiento afecta la comprensión del lenguaje posterior. Para lograr esto, utilizamos un modelo de lenguaje a gran escala para simplificar textos escritos por humanos. Los modelos causales (28M-500M) se preentrenaron desde cero utilizando los datos originales y simplificados, y luego se ajustaron y evaluaron en configuraciones de disparo cero.