0%

AI思维链是幻象吗?

视频链接:https://v.douyin.com/B4_zH4WVvIU/


看似思考,实则模仿?

你一定有过这样的经历:向 AI 聊天机器人提问时,它不仅给出答案,还会逻辑清晰地展示每一步的思考过程。那一刻,仿佛和我们对话的根本不是模型,而是一个会思考、能分析、甚至还能揣摩我们用意的智能体。

但你有没有遇到过另一种情况:AI 的推理明明逻辑严谨、头头是道,最终却信心十足地给出一个和推理完全相反的结论?

举个例子:有研究者问 AI “1776 年是平年还是闰年?”大模型的思考过程是这样的——

1776 年可以被 4 整除,但它又不是世纪年,所以答案是平年

但问题来了:可以被 4 整除又不是世纪年的年份,其实应该是闰年。大模型在思考时正确使用了闰年的计算方式,得出的结论却是错误的。

为什么会这样?


亚利桑那大学的答案:《思维链是否是大语言模型的幻想》

来自美国亚利桑那大学的这篇论文,为我们提供了一个全新的视角。下面用最通俗的语言来讲清楚这篇论文到底说了什么。

核心观点

所谓的 AI 思维链,并不是我们理解的抽象推理能力,它只是一种高度依赖于训练数据的模式匹配。

也就是说,AI 是在它的”记忆”中找到无数看起来像是思考的片段,然后根据我们的问题,把这些片段以一种概率上最合理的方式连接起来,从而生成一段看起来逻辑通顺的回答。

回到 1776 年的例子:大模型在训练过程中见过各种平年/闰年计算方法的文字片段,而这些片段之后往往紧跟着一个”平年”的计算示例。于是大模型也就跟着输出了”1776 年是平年”的结论。大模型内部其实根本没有用 1776 这个数字进行过真正的计算。


如何证明?—— Data Alchemy 实验

大模型内部参数怎么解释,至今科学界都没搞明白,想完整证明几乎不可能。但研究者设计了一个非常精妙的实验,叫 Data Alchemy,从侧面验证了他们的观点。

实验设计

研究人员从头训练了一个语言模型,这个模型只支持两种操作:

  1. 字母加密:将字符串中每个字母在字母表上向后移动 13 位(如 abcdnopq
  2. 循环位移:将最后一个字母挪到最前面(如 abcddabccdab

训练目标不仅是让 AI 给出最终答案,还要展示变换过程(即思维链)。比如 abcd 先字母加密再循环位移,AI 应该输出:

abcd 经字母加密得到 nopq,nopq 再经循环位移得到 qnop,所以结果是 qnop。

这个实验的精妙之处在于:所有训练数据都是研究人员自己生成的,因此可以精确控制 AI 收到的问题是否见过,从而像控制实验变量一样引入各种”没见过”的情况。


三个实验

实验一:任务泛化

研究人员只用字母加密训练模型,直到它能 100% 解决所有字母加密问题。然后突然用一个循环位移的问题来测试。

如果模型真的理解了算法,我们期待的结果是:

  • 要么识别出这些操作都是字母变换,推导出循环位移的新规则
  • 要么承认不知道怎么做

实际结果:模型固执地想把字母加密规则套用在循环位移问题上。

之后研究人员只用 不到 0.02% 的循环位移数据进行微调,模型就迅速学会了。这说明模型从未”理解”字母加密,只是匹配了见过的模式。

更进一步,研究人员测试了训练中没见过的操作顺序——训练时永远是先加密再位移,测试时要求先位移再加密。结果是:模型输出的推理过程与问题无关,但答案却是正确的。 你能猜到为什么吗?

实验二:长度泛化

训练数据全是两步推理(如两次加密、加密+位移等)。测试时让 AI 做一步推理三步推理

结果:

  • 面对一步问题,AI 常常强行编造出第二步
  • 面对三步问题,AI 往往推理两步就停止了

这表明思考过程不是按问题实际需求生成的,更像是在填充一个固定长度的模板

实验三:格式泛化

这是最能体现 AI 只是在做模式匹配的实验。

训练时 AI 只看到特定格式的指令(如 problem:)。测试时仅仅把 problem 替换成 question,或把中括号换成小括号,就导致模型性能显著下降。

真正的逻辑推理应该抽象于符号和语法,但模型却对这些表面形式上的改动如此敏感——这恰恰证明了它所依赖的并非深层逻辑,而只是对文本表面模式的复现


模型太小了?换成 GPT-5 会不一样吗?

原文作者也讨论了这个问题。他们用不同大小的模型重复实验,还调整了其他参数,结论是这种依赖训练数据、难以泛化的问题依然存在。问题不在模型不够大,而在于它们的学习方式。


我们该如何面对 AI?

  1. 保持健康的怀疑——永远不要把 AI 输出的内容当作绝对真理。AI 非常擅长用不容置疑的语气包装一个完全错误的结论。

  2. 主动测试 AI 的边界——设计一些超出常规的问题,更好地把握 AI 的能力边界。

  3. 记住,你自己才是真正的思考者——AI 只是思考的辅助工具,不是代替者。


结语

我们之所以对”会思考的 AI”如此着迷,或许是源于对创造同类的渴望。我们太想看到一个会思考、能陪我们喜怒哀乐的机器,以至于不自觉地把流畅的表达等同于深刻的思考

这篇论文与其说是揭露了 AI 的缺陷,不如说是修正了我们的认知。也许通往人工智能的路上,重要的并不是让 AI 学会像人一样思考,而是我们人类学会如何善用这个和我们思维方式完全不同的异类。