大型语言模型后训练：非策略学习与策略内学习的统一视角