본 논문은 언어 모델 사전 훈련의 컴퓨팅 확장이 인간이 작성한 텍스트의 증가 속도를 능가하여 데이터가 언어 모델 확장의 병목 현상이 될 것이라는 우려를 제기합니다. 이러한 데이터 제약 환경에서 사전 훈련의 확장을 지속하기 위해, 본 논문은 텍스트 생성 과정의 기저에 있는 잠재적인 생각을 명시적으로 모델링하고 추론하는 것이 사전 훈련 데이터 효율을 크게 향상시킬 수 있다고 제안합니다. 웹 텍스트를 장황한 인간의 사고 과정의 압축된 최종 결과로 보고, 잠재적인 생각에는 데이터 효율적인 학습에 중요한 맥락적 지식과 추론 단계가 포함되어 있다는 직관적인 접근 방식입니다. 수학에 대한 데이터 제약 지속적 사전 훈련을 통해 이 접근 방식의 효과를 실험적으로 입증합니다. 잠재적 생각을 추론하는 합성 데이터 접근 방식이 데이터 효율을 크게 향상시켜 동일한 양의 원시 데이터로 훈련하는 것보다 성능이 뛰어나다는 것을 보여줍니다 (MATH에서 5.7% → 25.4%). 또한, 강력한 교사 없이 잠재적 생각 추론을 보여주는데, 여기서 LM은 EM 알고리즘을 사용하여 훈련된 LM의 기능과 생각으로 확장된 사전 훈련 데이터의 품질을 반복적으로 향상시켜 자체 성능을 부트스트래핑합니다. 1B LM이 최소 3회 반복하여 성능을 부트스트래핑하고 원시 데이터로 훈련된 기준선보다 성능이 훨씬 뛰어나며, E-step을 수행할 때 추가적인 추론 계산으로 인한 이득이 증가한다는 것을 보여줍니다. 추론 확장 및 EM 반복으로 인한 이득은 데이터 제약 사전 훈련의 확장을 위한 새로운 기회를 제시합니다.