随着深度学习技术的发展,大型语言模型(LLM)在自然语言处理任务中取得了长足的进步。特别是链式思维(CoT)的提示技术,它可以让模型像人类一样进行多步推理,显著提升了模型的推理能力。不过,CoT提示中推理步骤的长度与模型表现之间的关系仍然是个谜。有研究人员针对这个问题,进行了研究,发表了论文《The Impact of Reasoning Step Length on Large Language Models》
介绍
论文链接:The Impact of Reasoning Step Length on Large Language Models

添加图片注释,不超过 140 字(可选)
GitHub:https://github.com/jmyissb/The-Impact-of-Reasoning-Step-Length-on-Large-Language-Models
研究人员进行了一系列实验,并发现了一个有趣的现象:在CoT提示中,推理步骤链的长度与LLM的推理能力存在正相关关系。也就是说,增加推理步骤数量可以显著提高LLM在多个数据集上的推理能力,而减少推理步骤数量则会显著降低LLM的推理能力。这一发现为优化CoT提示提供了新的视角,强调了推理链长度在复杂推理场景中的重要性。

Increase the length of the reasoning step chain, and the accuracy of problem-solvingincreases too.
为了深入研究CoT的内在机理,研究人员设计了一系列实验,在保持其他因素不变的情况下,只改变推理步骤的数量。

Increase the length of the thinking chain through the method in the figure, and compressthe thinking chain without losing information as much as possible.
实验方法:
针对零样本 CoT,研究人员将初始提示从“让我们一步一步地思考”改为“让我们一步一步地思考,你必须想更多的步骤”。(“Let’s think step by step" to “Let’s think step by step, you must think more steps.")

添加图片注释,不超过 140 字(可选)
针对少样本 CoT,研究人员设计实验来扩展 CoT 示例中的推理步骤,同时保持其他因素不变。包括了以下几种方法来扩展推理步骤:
- 思考关键词:让模型重新解释问题中的关键词,以扩展推理链,但并不引入新信息。

添加图片注释,不超过 140 字(可选)
- 重复阅读问题:让模型重复阅读问题,以加深对问题的理解。

添加图片注释,不超过 140 字(可选)
- 重复状态:在推理链中加入当前状态的总结,以简化模型的记忆。

添加图片注释,不超过 140 字(可选)
- 自我验证:在得出答案前,让模型自我验证答案的合理性。

添加图片注释,不超过 140 字(可选)
- 建立方程:对于数学问题,让模型尝试建立方程来简化推理。

添加图片注释,不超过 140 字(可选)
实验结果:
大部分实验基于GPT-3.5-turbo-1106模型,在实验中,研究人员首先验证了增加推理步骤可以提升LLM在零样本和少样本下的准确率。然后,研究人员压缩了推理步骤,发现这会导致准确率下降。研究人员还比较了不同规模的LLM对推理步骤的需求,发现模型规模越大,需要的推理步骤越多。最后,研究人员发现即使改变推理链中的问题内容,对准确率的影响也很小。以下为详细内容:
首先研究者发现,有效的 CoT 过程,例如在 CoT 过程中增加多达六个步骤的额外思维过程,会让大型语言模型推理能力都会得到提高,并且是在所有的数据集上都有体现。换句话说,研究者发现准确性和 CoT 复杂性之间存在一定的线性关系。

添加图片注释,不超过 140 字(可选)

Linear Relationship Between Step Quantity and Accuracy
此外,研究人员还发现了一个有趣的现象:即使包含误导性信息的推理链,只要保持足够的推理长度,也能得到良好的结果。这再次验证了推理链长度的重要性,而非准确性。这一发现对于研究人员理解LLM的工作原理具有重要意义。

添加图片注释,不超过 140 字(可选)

Compare the accuracy of the prompt with the true answer and prompt with wrong answer

添加图片注释,不超过 140 字(可选)
为了与增加推理步骤提高 LLM 推理的准确性进行对比,研究人员进行了推理步骤压缩实验,将推理过程浓缩成 Auto CoT 和 Few-Shot-CoT,减少推理步骤数。结果显示,模型的性能显著下降,这个结果进一步表明,增加 CoT 推理步骤可以提高 CoT 性能,反之亦然。

Compare the accuracy of the prompt with Compression and prompt with No Compression
实验结果还表明,增加推理步骤的优势与任务复杂度相关。对于较简单的任务,需要的推理步骤较少;而对于更复杂的任务,更长的推理链能带来显著提升。这为研究人员优化CoT提示提供了指导,使研究人员能够根据任务复杂度合理设置推理链长度。

Comparing the accuracy with different size models on dataset GSM8K

添加图片注释,不超过 140 字(可选)
这篇论文通过实验验证了增加CoT中的推理步骤长度可以提升LLM的推理能力,为优化CoT策略提供了重要的指导。