思路链 (CoT) 提示有助于大规模语言模型 (LLM) 通过逐步推理解决复杂问题。然而,CoT 的弊端在于表示过多,导致延迟和内存占用增加,并且早期错误可能会在长链中传播。本文提出了推理胶囊 (R-Capsule) 框架,旨在将潜在推理的效率与显式 CoT 的透明性相结合。其核心思想是将高级计划压缩成一小组学习到的潜在标记(推理胶囊),同时保持执行步骤的轻量级或显式化。这种混合方法受信息瓶颈 (IB) 原则的启发,鼓励胶囊最小化但足以完成任务。通过低容量瓶颈来鼓励最小化以提高效率。通过双重目标来鼓励充分性:主要任务损失函数用于衡量答案准确性,辅助计划重建损失函数用于鼓励胶囊忠实地表示原始文本计划。重建目标有助于巩固潜在空间,从而提高可解释性并减少无信息捷径的使用。该框架在效率、准确性和可解释性之间取得平衡,在保持或提升复杂基准测试准确性的同时,减少推理过程中可见的标记占用空间。