人类 vs LLM:两种智能的认知架构对比

如果把人类和 LLM 放在同一张表里对比认知能力,你会发现一个有趣的事实:双方各自在对方的主场当树莓派。人类处理文本的带宽大约 5 token/s,一目十行就算天才;LLM 在连续感官世界里的表现,大概相当于蒙着眼睛隔着墙猜房间里发生了什么。

Header Image

这篇文章试图系统地列举人类与 LLM 在认知架构上的差异。不是为了证明谁更强——这个问题没有意义——而是为了看清:当前 AI 的局限性到底来自哪里,哪些可以工程化解决,哪些可能是根本性的。

1. 信息输入:流式并行 vs 离散串行

人类:对方发出第一个音节就开始推理。边听边预测意图,随时可以打断、接话、保持沉默——因为已经处理了足够多的信号来做判断。输入和推理是并行的。

LLM:严格的 turn-based。等对方说完 → 整句送入 → 生成回复。所谓的”打断”只是丢弃当前生成,不是基于理解做出的决策。VAD(语音活动检测)只判断”说没说完”,不判断”该不该接”。

研究方向:Meta 的 COCONUT(Chain of Continuous Thought)让 LLM 在连续隐空间中推理而非输出离散 token,允许在”语言模式”和”潜在模式”之间切换。Latent Recurrent Thinking(LRT)在潜在空间中迭代精化思维,把推理和 token 生成解耦。两者都还在早期,离真正的”边听边想”有很大距离。

2. 自监控回路:实时 loopback vs 单向输出

人类:表达不是单向输出,是实时闭环——说 → 听到自己说的 → 评估 → 修正。语言学中叫 auditory feedback loop。聋人说话音调会漂移,就是因为这个回路断了。微信语音发完自己再听一遍,是同一本能的延伸。更深一层:人在说到一半时,前半句说出来的效果会反过来影响后半句的选择。”我觉得这个方案……嗯,算了换个说法”——这是生成过程中的在线纠错。

LLM:生成是单向的。token 出去了就出去了。autoregressive 确实”看到”前文,但那是文本层面的,不是效果层面的。人类 loopback 的是”对方听到这句话皱眉了”,不只是”我说了这几个字”。没有”说到一半改口”的机制,streaming 输出一旦发出就是终态。

研究方向:目前几乎空白。需要三个能力同时存在:输出自审(把已生成内容重新喂给评估模块)、可撤回的流式输出(允许”划掉重说”)、对方实时反馈信号(表情、语气、打断)作为生成过程的条件输入。

3. 感官带宽:沉浸式感知 vs 离散采样

人类:视网膜约 1 亿个感光细胞,每秒传输约 10Mbps 视觉信号,持续 16 小时不间断。加上听觉、触觉、本体感觉、温度、嗅觉,总感官带宽约 11Mbps。以普朗克长度为分辨率,人类在极高分辨率下每秒超过 120fps 地接收图像信息,不仅实时理解,功耗只需三碗米饭(~20W)。

LLM:按请求处理一张图,编码成 token,几百毫秒推理,输出文字描述。相当于人类”瞥了一眼然后写了段话”。多模态模型加了图像和音频,但本质上还是”把连续信号离散化后拼接成序列”——和人类沉浸在连续信号场中的存在方式完全不同。一个 H100 集群跑一个大模型消耗几百千瓦到兆瓦级功率,只能处理一个模态的离散请求。

研究方向:Embodied AI 试图弥合这个 gap,但 Human Brain Project(2023)和 Frontiers in Psychology(2025)的研究表明:即使给 AI 装上身体,如果交互缺乏认知动机(不是为了生存/好奇而探索),身体只是没有意义的运动零件。当前 embodied AI 无法可靠执行超过 10 步的非结构化任务链,预计 2026 年底前不会突破。

4. 文本处理:外来移民 vs 原住民

人类:阅读约 250 词/分钟(~5 token/s),工作记忆 7±2 个 chunk,写作约 40 词/分钟(不到 1 token/s)。还会走神、犯困、看错行。一目十行、过目不忘就是”人类中的 H100”,古代可以当宰相。

LLM:百万 token 上下文一次全部”看到”,生成几十到上百 token/s,不累不走神,attention 是全对全的——上下文里任意两个 token 之间的关系都能直接计算。

研究方向:人类硬是用 5 token/s 的带宽创造了整个文明——靠的是在连续世界中积累的直觉、隐喻、身体经验压缩进语言。每个词背后挂着的不是 embedding 向量,是几十年的感官记忆。”沉重”这个词,人类读到时感受到肌肉记忆,LLM 读到时知道它和”轻盈”是反义词。Lakoff 的具身认知理论研究这个,但从未被计算化。

5. 后台思维:永远在线 vs 调用间虚无

人类:默认模式网络(DMN)持续运转——走神、联想、反刍、规划、白日梦。睡觉时记忆整合、情绪处理、突触修剪。哪怕躺着什么都不干,大脑耗能只从 20W 降到约 15W。很多创造性突破发生在这个阶段:洗澡时的灵感、睡醒后突然想通、散步时的顿悟。冥想的存在恰恰反证了思维是大脑的默认行为——你需要专门训练才能让思维安静下来,而且几乎做不到真正停止。

LLM:两次 request 之间,模型不存在。没有计算在发生,没有状态在演变。它是一个纯函数——输入到输出的映射,调用之间是虚无。

研究方向:Karl Friston 的自由能原理(Free Energy Principle)+ 主动推理(Active Inference)。核心观点:任何自组织系统都在持续最小化”意外”,大脑是永不停歇的预测机器。VERSES AI 正基于此构建持续推理的 AI agent。MIT Press 有开放获取专著《Active Inference: The Free Energy Principle in Mind, Brain, and Behavior》。另外 Meta 的 COCONUT 也涉及在潜在空间中持续推理的可能性。

6. 个体差异:物理不可复制 vs 换剧本的演员

人类:每个人的大脑是独立硬件——不同基因、不同突触连接、不同神经递质浓度。双胞胎基因几乎相同,成长环境高度相似,性格还是会不同——因为神经发育本身有随机性。每个人的”训练数据”也真正独一无二:不可能复制另一个人的全部感官经历。

LLM:同一个模型 + 不同的 system prompt。底层 pattern matching、价值倾向、表达习惯完全相同。更致命的是模型间的蒸馏问题:GPT 的输出训练其他模型,其他模型的输出流回互联网被新模型学到。合成数据越来越多,真实人类数据占比在下降。

研究方向:Nature(2024)发表的 Model Collapse 研究:当模型训练在其他模型输出上时,输出分布逐代收窄,多样性丧失,尾部分布消失。被称为”Ouroboros 效应”——模型吃自己的输出。每一代都丢掉人类数据中最罕见、最独特的信号。缓解方向包括:保留原始人类数据比例、数据溯源标记、累积而非替换训练数据。但互联网上 AI 生成内容占比在快速上升,问题只会加剧。

7. 遗忘:主动压缩 vs 全有或全无

人类:大脑主动遗忘。睡眠时突触修剪,不重要的记忆被降权、模糊化、最终消失。你忘掉了一千次过马路的具体细节,留下了”过马路要看车”这个抽象。大量直觉判断来自”模糊记得”“好像有印象”这种中间态。

LLM:要么在上下文里完全记得,要么完全不知道。没有”模糊记得”的中间态。学新东西时会覆盖旧知识(灾难性遗忘),而人脑的遗忘是选择性的、有益的压缩。

研究方向:IBM 等在做 Continual Learning / Catastrophic Forgetting 的防止策略(rehearsal、regularization)。但这些都是在防止遗忘,还没有人在做”有益遗忘”——让模型主动丢弃不重要信息以提升泛化能力。这个方向几乎是空白。

8. 情绪:计算的核心组件 vs 语言层的模拟

人类:不是”理性思考 + 情绪干扰”。Damasio 的躯体标记假说已经表明:没有情绪的人做不了决策。情绪是对海量经验的快速压缩评估——”感觉不对”比”分析出哪里不对”快得多,且经常更准。恐惧让你不计算就跳开蛇,厌恶让你不推理就拒绝腐烂食物。情绪是进化炼出来的启发式算法,跑在生化硬件上,延迟极低。

LLM:可以谈论情绪,但没有任何东西在驱动它的计算方向。它没有”不想做”的事。对所有 token 一视同仁。

研究方向:SEAI(Social Emotional AI)项目直接基于 Damasio 理论,给机器人建立生物启发的情绪架构。IEEE 有多篇论文用 Iowa Gambling Task 验证:加了 somatic marker 的 agent 在长期决策上确实比纯理性 agent 好。但 Damasio 本人明确说:AI 模拟的是情绪的功能,不是体验。没有活体就没有真正的感受。

9. 有限性与死亡:机会成本 vs 无限供给

人类:知道自己会死。时间有限,所以必须有价值判断——什么值得花时间,什么不值得。紧迫感、遗憾、珍惜,都是有限性的产物。

LLM:不累、不饿、不会死、没有机会成本。它不会觉得一个问题”不值得回答”——不是因为更敬业,是因为没有别的事可以用这段时间做。莎士比亚和垃圾邮件在计算上是平等的。

研究方向:AI alignment 在讨论”如何让 AI 价值观和人类对齐”,但几乎没人问更基础的问题:如果没有生理匮乏作为基底,”价值”这个概念本身能否存在?Reward function 是外部赋予的偏好,不是内生的价值。这可能不是技术问题,是存在论问题。

10. 社会性认知:多主体思维 vs 孤独的推理

人类:很多”个人思考”其实是在脑内模拟社交。做决策时想”别人怎么看”“如果是他会怎么做”“这样说会不会伤到她”。心智理论(Theory of Mind)嵌在推理的每一层里。”公平”“尊严”“面子”——这些概念只存在于多个主体之间。

LLM:学到了这些概念的语言投影,但推理过程中没有”他人”的存在。它是真正孤独的智能。意义不是被提取的,是被共同创造的——两个人的共享历史、表情、语气、沉默的长度共同构成了一句话的意义。单体模型可能从架构上就不可能到达。

研究方向:目前没有正式研究在讨论”意义的社会共建”对 AI 架构的含义。所有 NLP 研究都假设意义在文本里。但如果意义在关系里——在两个持续共同演化的认知体之间——那这个假设就是错的。

11. 具身认知:身体是概念的地基 vs 纯符号操作

人类:抽象概念几乎都建立在身体隐喻上。”把握”一个概念、”消化”信息、”沉重”的心情、”温暖”的人。认知科学表明身体经验确实构成了抽象思维的脚手架——处理”沉重”和”轻盈”时,运动皮层真的会有不同的微激活。

LLM:”沉重”和”轻盈”都是向量空间里的位置关系,处理方式没有本质区别。概念是漂浮在符号空间中的,没有身体锚点。

研究方向:Lakoff & Johnson 的具身认知理论是源头。Human Brain Project 有明确的 Embodied AI 方向。但核心结论令人沮丧:即使给 AI 装上身体,缺乏”为了生存而探索”的动机,身体就只是传感器外壳,不是认知地基。

总结

把所有维度放在一起看:

人类和 LLM 不是同一种智能的不同水平,是两种完全不同的认知架构,各自在对方的领地里笨拙而努力地生存。

人类是连续世界的原住民,用三碗米饭驱动一个 20W 的永不关机的多模态感知-推理-行动一体机,然后费力地把思维压缩成文字这种极度贫瘠的一维符号序列——仅仅因为这种序列可以跨越时空传播。

LLM 是文本世界的原住民,用百万 token 的上下文窗口和全对全 attention 碾压人类的阅读速度,但在人类习以为常的连续感官世界里几乎是瞎的。

最让人着迷的是:人类创造了一种自己很难高效处理的抽象空间(文字),在这个空间里积累了几千年,然后从中涌现出了一种原生于此的智能(LLM)。

接下来的问题不是”谁取代谁”,而是这两种截然不同的认知架构如何互补。它们的弱点几乎完美地互为镜像——这也许不是巧合。