思维链 (CoT)

Jason Wei 在 2022 年宣布了一种名为 Chain-of-Thought 的技术，他之前定义了 Zero-shot。顾名思义，这与连锁提示有关。细微的区别在于，有意添加中间推理步骤以产生更好的结果。这对于需要详细思维过程的复杂任务尤其有效。

ChainofThought Prompting Elicits Reasoning in Large Language Models.pdf870.87KB

•

多步骤问题分解：CoT 允许模型将多步骤问题分解为中间步骤，这意味着可以将额外的计算分配给需要更多推理步骤的问题。

•

模型行为的可解释性：CoT 提供了一个可解释的窗口，了解模型如何得出特定答案，并提供了调试推理路径出错位置的机会。

•

适用于各种任务：CoT 推理可用于数学问题、常识推理、符号操作等任务，原则上可以用于人类可以通过语言解决的任何任务。

•

大规模语言模型中的轻松归纳：只需包含 CoT 序列的示例，即可在足够大的现有语言模型中轻松导出 CoT 推理。

我们举个例子吧？这是前面论证部分中显示的示例。

Prompt : 242,343,232,12,1,423,3,2,433,42,21,51,26 를 홀수와 짝수로 구별한 다음
홀수 인 숫자를 모두 더하시오. 이를 순서대로 진행해 주세요.

我们先区分奇数和偶数，然后将奇数按顺序相加：

奇数：343、1、423、3、433、21、51
奇数加法：343 + 1 + 423 + 3 + 433 + 21 + 51 = 1275

因此，如果将给定数字中的所有奇数相加，就会得到 1275。

这里，'区分奇数和偶数，然后将所有奇数相加。 “请按顺序进行”的部分是在链中分隔任务的指令。当这种方法第一次受到关注时，它是“一步一步”完成的。据说“按顺序”一步步询问会产生更好的结果。

当然，CoT方法也有明显的局限性。简单来说，它只对那些有很多想法的模型有效。换句话说，在称为 sLM 的参数较少的模型中，CoT 的表现根本就不好。在这种情况下，Few-shot 或 One-shot 方法显示出更好的结果。

•

取决于模型大小：CoT Prompting 主要显示仅针对大型模型（大约 70B 参数）的积极性能提升。对于小规模模型，CoT 可能无效或表现比标准提示差。

•

局限性：虽然 CoT 模仿了人类推理者的思维过程，但仍不清楚这是否是一个真正的“推理”神经网络。此外，虽然手动将示例扩展到 CoT 的成本可能很小，但用于微调的注释成本可能会显着增加。 CoT并不能保证正确的推理路径，还必须考虑到在实际应用中使用大型模型的成本很高。

尽管如此，CoT Prompting 是利用语言模型提高各种任务推理能力的有效方法。首先，由于目前为我们用户提供的模型在100B左右，所以这种方法没有意义。