AI 使用中“重启”的艺术与哲学漫谈

最近在写一本数学小册子，和 DeepSeek 对话是主要的工作方式。几个对话窗口几乎都聊到了上限。过程里观察到一个现象：对话越长，模型似乎越“傻”。一开始很灵动，越到后面越迟钝，回答变得冗长、空洞，套话连篇。

这当然不是 DeepSeek 独有的问题。从技术上说，原因在于注意力机制的信息密度失衡。对话历史越长，早期的关键指令就越容易被后来大量的来回确认、补充、修正所稀释。模型并没有主动“忘记”什么，但它分配给每个 token 的注意力变得扁平了。一个房间里同时有一百个人在说话，最初那个人的声音就很难听清。

这是技术问题，但哲学趣味很浓。它让人想起记忆的悖论：为了保持连贯，我们必须记住；但记住太多，反而会丧失最初的敏锐。人的认知也是如此：年轻时思维灵动但经验少，年老时经验丰富但反应变慢。大模型的“老化生命周期”被压缩到了几万 token 之内。对话开始时信息结构有序，一个清晰的问题摆在面前；但随着你来我往，可能性分支增多，混乱度自然上升。到最后，模型往往给出最“安全”但最平庸的回答，就像热寂。赫拉克利特说人不能两次踏入同一条河流。在 AI 对话里，你也不能两次踏入同一条对话河流——每次生成都是新的，历史沉积会改变水流的方向。

“适时重启”，不失为一种重要的使用技巧。对话什么时候该重启呢？这里有几个信号值得留意。

一是话题发生了阶段性质变。比如数学小册子，写完群论基础要进入环与域，虽然主题相关，但前提假设、符号体系、例子类型都变了。旧对话里的定义对新章节仍是知识，但那种来回推敲的历史对新的任务已是噪音。

二是开始频繁修正或补充自己之前的话。连续发“不对，前面那个例子改成……”（DeepSeek 常有，看起来是把思考的话放到了回答里面说，十分怪异，甚至会出现纯思考不回答的情况）“其实我第三轮说的那个引理有点问题”，说明模型和历史记录之间已经出现了不一致的锚点。模型会努力同时满足前后矛盾的指令，结果就是平庸的折中。

三是模型回答变长，但信息密度骤降。当它开始用“您说得很有道理，从某种意义上讲……”“此外，还需要考虑……”这类空洞的套话时，注意力已经被历史稀释，难以聚焦核心。四是发现自己反复引用很久以前的一条信息。那条信息在五十轮之前，最近十轮都在聊别的，模型很可能已经记不清细节了。与其让它去翻找，不如自己把那条信息提炼成一句话，作为新对话的开场。

重启也需要一些优雅的技巧。不要直接关掉重来，那样会丢失已经共同构建的洞察。比较好的做法是先让当前对话做一次“终局总结”，把已经达成的主要结论、定义和尚未解决的问题，用清晰的分点总结出来。然后把这份总结复制下来，开启新对话时直接贴在第一句，这就像一个生命传承。外部记忆也很重要。写小册子这类长期项目，可以维护一个单独的文本文件，记录关键定义、定理和反例。每次新对话开头，把这个文件的内容粘贴进去作为“人工长期记忆”。

更深一层看，这触及了人与 AI 协作的认知经济学。对话历史不是越多越好，因为模型的短期记忆带宽有限。重启不是失败，而是一种认知垃圾回收：清空缓存，保留堆上的核心对象。和人类做复杂工作时的记忆刷新很像。一个数学家不会在同一块黑板上连续写五十页推导，他会擦掉中间计算，只保留关键公式继续。AI 对话的重启，就是擦黑板。

这个类比还能推得更远。人一天高强度思考之后，晚上头脑模糊，第二天细节忘掉不少，但往往会有新的发现。遗忘不是单纯的损耗，而是再生的前提。睡眠中的大脑在做主动的整合与修剪——把白天的噪音过滤掉，把不稳固的连接削弱，让真正重要的模式浮出水面。那些第二天早上突然想通的数学证明，不是因为你更努力了，而是因为你允许大脑遗忘了一部分。（这也提示广大学子要规律作息）智慧的本质不是记住更多，而是在恰当的时机忽略掉不恰当的信息。世界记忆大师未必是最聪明的人，这并非偶然。

AI 目前的“傻”，不是因为记性不好。恰恰相反，它记性太好了，而且不知道什么时候该忘。它把所有历史对话都当成同等重要的事实，就像一个人把每天早餐吃了什么都记下来，当要他解微积分时，脑子里还在回放煎蛋的滋滋声。一个真正智能的 AI，应该内置遗忘调度器，能根据任务目标、时间衰减、信息冗余度等信号，主动丢弃或压缩历史。而作为用户，“重启对话”的操作，其实就是手动触发了这个遗忘调度器。

把重启看作一个正常的工具操作，而不是对模型能力的抱怨，很多事就通了。擅长使用 AI 的人，往往也是擅长管理对话生命周期的人：知道何时深入，何时浅尝，何时重置，何时存档。这本身就是一门手艺。

AI 使用中“重启”的艺术与哲学漫谈#

AI 使用中“重启”的艺术与哲学漫谈