合成引导预训练 (SBP) 是一种新颖的语言模型预训练方法。与专注于学习单个文档中 token 之间因果关系的传统语言模型预训练方法不同,SBP 能够对文档之间的关系进行建模,生成一个新的大规模合成数据集,并利用该数据集进行预训练。SBP 使用 1 万亿个 token 数据预训练了一个包含 30 亿个参数的模型,其性能优于简单的迭代基线模型,并且在使用 20 倍以上的独特数据的情况下,实现了比理想场景显著的性能提升。定性分析表明,合成文档并非简单地进行释义,而是从原始文档中提取核心概念,从而生成新的叙述。从贝叶斯的角度来看,这可以理解为在相关文档之间抽象共享潜在概念的过程。