AI 使用中“重启”的艺术与哲学漫谈
最近在写一本数学小册子,和 DeepSeek 对话是主要的工作方式。几个对话窗口几乎都聊到了上限。过程里观察到一个现象:对话越长,模型似乎越“傻”。一开始很灵动,越到后面越迟钝,回答变得冗长、空洞,套话连篇。
这当然不是 DeepSeek 独有的问题。从技术上说,原因在于注意力机制的信息密度失衡。对话历史越长,早期的关键指令就越容易被后来大量的来回确认、补充、修正所稀释。模型并没有主动“忘记”什么,但它分配给每个 token 的注意力变得扁平了。一个房间里同时有一百个人在说话,最初那个人的声音就很难听清。
这是技术问题,但哲学趣味很浓。它让人想起记忆的悖论:为了保持连贯,我们必须记住;但记住太多,反而会丧失最初的敏锐。人的认知也是如此:年轻时思维灵动但经验少,年老时经验丰富但反应变慢。大模型的“老化生命周期”被压缩到了几万 token 之内。对话开始时信息结构有序,一个清晰的问题摆在面前;但随着你来我往,可能性分支增多,混乱度自然上升。到最后,模型往往给出最“安全”但最平庸的回答,就像热寂。赫拉克利特说人不能两次踏入同一条河流。在 AI 对话里,你也不能两次踏入同一条对话河流——每次生成都是新的,历史沉积会改变水流的方向。
“适时重启”,不失为一种重要的使用技巧。对话什么时候该重启呢?这里有几个信号值得留意。
一是话题发生了阶段性质变。比如数学小册子,写完群论基础要进入环与域,虽然主题相关,但前提假设、符号体系、例子类型都变了。旧对话里的定义对新章节仍是知识,但那种来回推敲的历史对新的任务已是噪音。
二是开始频繁修正或补充自己之前的话。连续发“不对,前面那个例子改成……”(DeepSeek 常有,看起来是把思考的话放到了回答里面说,十分怪异,甚至会出现纯思考不回答的情况)“其实我第三轮说的那个引理有点问题”,说明模型和历史记录之间已经出现了不一致的锚点。模型会努力同时满足前后矛盾的指令,结果就是平庸的折中。
三是模型回答变长,但信息密度骤降。当它开始用“您说得很有道理,从某种意义上讲……”“此外,还需要考虑……”这类空洞的套话时,注意力已经被历史稀释,难以聚焦核心。四是发现自己反复引用很久以前的一条信息。那条信息在五十轮之前,最近十轮都在聊别的,模型很可能已经记不清细节了。与其让它去翻找,不如自己把那条信息提炼成一句话,作为新对话的开场。
重启也需要一些优雅的技巧。不要直接关掉重来,那样会丢失已经共同构建的洞察。比较好的做法是先让当前对话做一次“终局总结”,把已经达成的主要结论、定义和尚未解决的问题,用清晰的分点总结出来。然后把这份总结复制下来,开启新对话时直接贴在第一句,这就像一个生命传承。外部记忆也很重要。写小册子这类长期项目,可以维护一个单独的文本文件,记录关键定义、定理和反例。每次新对话开头,把这个文件的内容粘贴进去作为“人工长期记忆”。
更深一层看,这触及了人与 AI 协作的认知经济学。对话历史不是越多越好,因为模型的短期记忆带宽有限。重启不是失败,而是一种认知垃圾回收:清空缓存,保留堆上的核心对象。和人类做复杂工作时的记忆刷新很像。一个数学家不会在同一块黑板上连续写五十页推导,他会擦掉中间计算,只保留关键公式继续。AI 对话的重启,就是擦黑板。
这个类比还能推得更远。人一天高强度思考之后,晚上头脑模糊,第二天细节忘掉不少,但往往会有新的发现。遗忘不是单纯的损耗,而是再生的前提。睡眠中的大脑在做主动的整合与修剪——把白天的噪音过滤掉,把不稳固的连接削弱,让真正重要的模式浮出水面。那些第二天早上突然想通的数学证明,不是因为你更努力了,而是因为你允许大脑遗忘了一部分。(这也提示广大学子要规律作息)智慧的本质不是记住更多,而是在恰当的时机忽略掉不恰当的信息。世界记忆大师未必是最聪明的人,这并非偶然。
AI 目前的“傻”,不是因为记性不好。恰恰相反,它记性太好了,而且不知道什么时候该忘。它把所有历史对话都当成同等重要的事实,就像一个人把每天早餐吃了什么都记下来,当要他解微积分时,脑子里还在回放煎蛋的滋滋声。一个真正智能的 AI,应该内置遗忘调度器,能根据任务目标、时间衰减、信息冗余度等信号,主动丢弃或压缩历史。而作为用户,“重启对话”的操作,其实就是手动触发了这个遗忘调度器。
把重启看作一个正常的工具操作,而不是对模型能力的抱怨,很多事就通了。擅长使用 AI 的人,往往也是擅长管理对话生命周期的人:知道何时深入,何时浅尝,何时重置,何时存档。这本身就是一门手艺。