Synthetic Bootstrapped Pretraining (SBP)은 기존의 단일 문서 내 토큰 간의 인과 관계 학습에 집중하는 언어 모델 사전 학습 방식과 달리, 문서 간의 관계를 모델링하여 새로운 대규모 합성 데이터셋을 생성하고 이를 활용하여 사전 학습을 수행하는 새로운 방법입니다. SBP는 1조 토큰의 데이터를 사용하여 30억 파라미터 모델을 사전 학습하였으며, 단순 반복 기준 모델보다 성능이 향상되었고, 20배 많은 고유 데이터를 사용한 이상적인 상황 대비 상당 부분의 성능 향상을 달성했습니다. 질적 분석 결과, 합성된 문서는 단순한 바꿔쓰기가 아닌, 원본 문서에서 핵심 개념을 추출하여 새로운 서술을 생성하는 것으로 나타났으며, 베이지안 관점에서 보면 관련 문서 간 공유된 잠재 개념을 추상화하는 과정으로 해석될 수 있습니다.