ENIGMA 是一种训练大规模语言模型 (LLM) 的全新方法,它将组织策略/原则视为沿着模型信息流形移动的方向,从而共同提升推理、对齐和鲁棒性。单循环训练器结合了组相关策略优化 (GRPO)、一种仅使用 CoT 格式奖励的在线策略、无评判的强化学习方法、一个基于互信息 (SAMI) 的对称信息流形辅助器,以及一个基于隐藏状态分布的熵 Sinkhorn 最优传输正则化器,以限制几何漂移。此外,为了衡量模型 CoT 编码这些策略的强度,我们引入了一个特定于匹配否定下标准 MI 下限的信息流形指标。这些指标包括充分性指数 (SI),它能够在训练前选择和生成能够最大化下游性能的原则。