为什么说AI还没准备好？

图片来源@视觉中国

文|李志勇

最近艾被妖魔化了，很像老虎，还没到橘猫那么大就被天天讨论成了。这种普遍的高期待其实是有害的，尤其是事情本身就需要耐心，需要精心的培养，需要长跑。资本和品牌可以匹配高预期对应的增长倍数，而商业不行，商业天生挤掉所有泡沫。所以我最近写了几篇文章建议大家用更理性的态度看待AI的进步，甚至设想一种测试智能的方式:图灵测试2.0。这篇文章是对以前文章的综合。

AIGC的GC（内容生成）是支点也是锁链

显然，AI是一种基础设施，它正在重新定义计算的内涵和方式。

如果和过去相比，那么过去的编程固化了程序员的智能，程序员的智能通过程序在有限的边界内处理问题，所以pan-IT的崛起是伴随着程序员的崛起，无论程序员的数量还是收入。AI很大程度上折叠了这个中间环节，即对话即计算，同时也让这种计算更加一般化、无国界。从这个角度来说，AI的崛起注定伴随着程序员群体的衰落(首先是数量，但不是说这个行当没了)。

(用户-程序员-程序-计算机-互联网计算模式) 为什么说AI还没准备好？第3张

(人工智能的用户计算模式)

基础设施的最终成败一定在于外部，而不在于自身的特点，比如是否优秀，大的模型有多大等等。在过去，微内核操作系统曾经风靡一时，但实际上，无论是Linux还是Windows都不是微内核，Minix等纯微内核系统只是教具。

作为基础设施，AI也是如此。如果它想要成功，就必须超越简单的内容生成工具的范围，成为一个通用的计算平台，为各种场合提供新的计算方法。

以前Windows和Linux都提供了这种多功能性，从ATM到机场的大屏幕，再到家里的机顶盒，甚至一点点智能闹钟，都提供了基本的计算能力。有时这些系统会崩溃。令人惊讶的是，很多系统其实都是XP。

AI打破内容生成工具的边界后，就会成为这种新的计算基础(一般人工智能的大致对应就是这种情况)。只有成为这个通用计算基地，AI才能真正迎来自己的星辰大海。

在当前的内容生成型AI和这种通用计算基础之间，存在着一条看不见的基因链。

这个基因链就是内容生成工具的边界。

AIGC的内容生成既是支点，也是链条。

在工具领域，这一次AI其实已经做得足够好了，就是池子太小，这样做的话会闷死所有人。

注1:如果你真的对大模型下新计算模式的技术感兴趣，可以扫描文末二维码。这个课程是我和知乎的一个哥们做的，比较认真，不是废话。卓然早年做三角兽的时候，我们接触很多。我们在GPT2的时候就一起遵循这个模式。我还是有分数的，但是课程还是感觉有点难，而且是收费的，所以我自己看着办。

注2：关于AI的计算模式参见《

开源模式LLaMA 2会起到类似Android的作用吗？

》

GC工具池子太小做的人太多，会憋死所有人

我们举个具体的例子来看为什么这个池子太小了。

起点有个网络作家，笔名是我吃西红柿。这位87年的同学，原本是苏州大学数学专业的大学生。按照正常轨道毕业后，他很可能无法继续从事数学相关的工作。那时候他很可能是程序员等相关方向的。然而，他没有走寻常路。他在大学期间就开始写网文，取得了不错的成绩。2012年11月，以2100万的版税收入位列“中国网络作家富豪榜”第二名。

假设他一年写300万字的小说，放大就是1000万token。现在这部分我自己不写，但是用AI。只需选择国内某大型车型的报价作为参考即可。按照1500元/5000万token计算，这部分能为人工智能公司创造的收入是300元，占2100万收入的十万分之一多一点。再放大，如果有一万个西红柿我吃，那么AIGC在网文行业可以赚300万。这还不够一个团队一年的工资，尤其是高端人才，连一个人都不够。

如果大模式只做内容生成，创造的价值和行业现有价值大致相当。

很多人都冲进去了，这和小池子里养一堆鲨鱼很像。如果你很饿，你只能想尽办法滚进去自相残杀，然后有很大概率全部死掉，一个不剩。

如果AI不能比GC走得更远，那一定是尽头:带着快乐期待的高度内卷。

这种内卷是完全的负反馈，对AI整体来说是一个死胡同。

大家期待的是一个新的通用计算平台和应用，其实只是一个内容生成工具，创造一点新的价值。怎么能长时间没有负面反馈？

那AI怎么出来？答案是你需要通过图灵测试2.0。

注3：关于AI的商业模式的汇总参见《

AI能赚钱吗？

》

图灵测试2.0

最初的图灵测试是这样的:

这是一个纯智能的测试，本质是在一个封闭的系统中追求逻辑自洽。

现在让我们给这个测试添加一个类似的代理概念:

这是图灵测试2.0。与1.0相比有哪些核心区别？

产生幻觉是有界限的。

1.0是凌空系统，合理的错觉其实有助于通过测试，2.0不是，测试者接受真实场景和被测试者双方的反馈；其次，测试边界的定义需要更高的智能深度。这很像赵括学兵法能说的话，但不一定能打；孙子兵法你不一定懂，但水站、陆站、马站你得懂。

能否打破内容生成的边界，成为各种场合使用的新的通用计算平台，取决于智能能否跟上。智能能不能跟得上，要看在每个场景下能不能通过图灵测试2.0。

Linux、Windows等输出智能的方式虽然老套，但提供了足够的确定性。和程序员一起达到了所谓的软件吞噬世界。这是一个足够好的计算模型，但是现在的AI不是。

现在的大模型确实提供了更好的计算形式，但关键是它不智能(过不了图灵测试2.0)，所以无法取代过去系统和程序员的结合。智能的边界限制了应用的边界。

注4：图灵测试2.0的展开参见《

AI的进步不是太快，而是太慢。

》

通过图灵测试2.0后会怎么样呢？

届时，不仅客服和外呼将基于AI构建，现有的每一个应用(Office等已经启动，游戏将大概率爆发真正的多维叙事和高度随机，聚焦智能新游戏)，广告屏，智能音箱，电视甚至手机都将被重组。因为基础计算范式发生了变化，它的交互载体必然会发生变化，这种变化可能大于从PC互联网到移动互联网的变化。从这个角度来看，机器人一定是下一个通用计算平台产品。

极端来说，除了霓虹灯、计算器等极端机械的产品，一切都会改变。

这个视角可以描述为场景的智能密度。显然，拧一个螺丝的智能密度低于计算一道数学题的智能密度。

智能密度越高，计算方法和相应的产品会发生越多的变化，因为价值更大。然后从数字到实物匹配视角，有无错觉。基于图灵测试2.0，再加上这三个视角，也制约了智能应用的未来发展。

这一路线实现的具体体现就是我们常说的代理。

如果我们用智力密度(原点为0)、物理程度(原点为0，代表纯数字应用)和幻觉危害性程度(原点为0，代表幻觉无害)画一个坐标系，把这个图安排在正中央，下图的头部是什么？

答案大概是:游戏，多维叙事游戏。注5：大模型的落地应用的形式参见《

AI Agent:大模型与场景之间的价值桥梁，但不适合纯技术。

》

Agent不是大模型的延伸而是新物种

只有图灵测试2.0才能有真正的智能体。但需要注意的是，agent不是大模型的延伸，而是一个新的物种。做汽车发动机和做汽车不一样，虽然汽车没有发动机是跑不起来的。

只有Agent才能掀起AI的浪潮，而能掀起AI浪潮的Agent不是其他简单集成AI特性的应用，而是智能原生Agent。在这种情况下，Agent不仅仅是将智能传递到特定场景的管道。

智能本地应用的组成；

在这种思维模式下，AI注定要被放在一个结构的中心: 为什么说AI还没准备好？第8张

https://www . ericsso n . com/en/reports-and-papers/white-papers/ai-native

在这里，大模型扮演引擎模式，如果它未能通过图灵测试2.0，智能原生应用程序将非常类似于骡子拉的汽车。

通过这个测试后，再加上上述的感知、目标、反馈、使能等环节，Agent才能真正成为新的通用计算的载体。只有通过这个测试，发动机才能一步步被蒸汽机、内燃机、涡轮增压等等取代。代理范围的扩大，注定是一步步提高智能的过程。

注6：智能原生相关展开参见《

从手机App到AI原生应用

》

现在能不能过图灵测试2.0呢？

答案是否定的，这就是现在的AI不好的原因。

我们可以降低标准，让它更垂直。只要范围够窄，所有的测试都可以通过，但那是没有意义的。我们看一下前面的具体例子，就能理解上面的整个逻辑链:我们过不了图灵测试2.0，我们也成不了智能原生应用的基地，只是卡在了AIGC这样的小池子里，所以现在的AI并不好。

如果你想开播，但又不想自己做，而是想做自己的数字代理或者分身，这个数字代理到底想达到什么目的？(取得成绩是指有人愿意看，有粉丝等。)

首先是最基础的产研部分:先搭建自己的外壳，也就是形象要那样，然后再配以看、听、说、想的能力(电脑输入输出、存储、CPU...).而阅读、听力、口语基本都是基于过去十年反复打磨的技术，比如图像识别、语言识别、语音合成等。思维部分基于大模型，负责综合各种输入产生自己的输出。程序员把这些都串联起来，基本上就有了一个数字头像，可以根据观众的各种输入给出一些反馈。但是产品在这里基本完成了手眼部分，大脑部分属于它，但是不好用。这个时候就算是最好的大模型导入，也还是一个傻逼Bot，别说取得成绩，基本上没有人会看完任何一个直播段子。这个时候在单点技术(包括大模型)打滚是没有前途的，粉丝留不住，回报大致为零。

改善的第一步肯定是加入性格特征，让它更像你，比如对人是否友好，表达是否犀利，是否社交:会说话，有感情联系。这个时候，试着回忆一下你过去对某个人说过的话。这部分不是纯技术的，但是技术关联度还是很高的。通常情况下，你需要寻找过去工作过的老司机。单纯做prompt估计做不到(注1提到的课其实就是这个值)。这一步是一个障碍。如果做到了，就通过了图灵测试1.0。别人分不清是不是你，现在完全做不到。聊天没有界限还可以，但是说到性格特点就没你想的那么好了。如果我们做不到会发生什么？我会看一个有点聪明，有点像你的人，在那里说，但是没有特点，没有意思。能吸引粉丝吗？看你播什么了。估计有可能会播动物世界，娱乐性估计很差。这是后面的话题，关键因素进一步从技术转移到产品。

通过图灵测试1.0的智能产品已经很有用了。在此之前，它们是纯粹的工具。之后就有点代理的意思了，但是价值没有想象中那么大。

图灵测试1.0这样的数字二重身有什么用？

它的优点是信息吞吐量大，不知疲倦，人对人；缺点是智力不够，做不出很好的性格、才华、出众的观点、有趣的即兴表演等。适合做什么？适合内容本身有趣，主播是配角的东西。

那些东西呢？比如播动物世界，讲故事，播新闻，偶尔穿插一些互动。这本质上是一个更好用的智能音箱。

这是什么？就是降低场景对智能的需求。情报供给不足只能降级。

理想的情况是怎样的？

理想情况下，这个数字化身还应该能够访问实时热点，动态生成要输出的内容，比如图片、视频，然后做主播。这个热点要匹配大家的关注点，要新颖，要匹配平台的规则，不仅是正向规则，还要把握反向尺度，否则就会被冲昏头脑或者被封杀。这一章衍生了很多细致的工作，比如现在主推的主题，这得跟平台走，不然权重不好也不会推你。这对于平台来说是一个智能到智能的过程，对于受众来说是一个综合分析的过程，对于创作来说是一个创意创新的过程。如果你能做到，你就能通过图灵测试2.0，一旦通过，你至少可以和人类分享这个世界。如果过不了，比如不管内容的时效性还是平台热点的捕捉，还是会事倍功半！是情报供给不足。如果这部分成功了，基本上就能有粉丝了。只有在这里，大脑才成长起来，培养出自己的风格。

假设能做到这一点，就结束了吗？

还没有。这些都做到了，主要解决了硅基智能和硅基智能的关系，相当于能够把匹配平台的规则和现实中的热点进行对比。

郭德纲称赞人的主要方法是反复提到这个人。如果有人拉你当主播显然更好。那么和谁合作，怎么合作，还是需要人来做。覆盖整个场景才是你真正的代理。

以上可以总结成一个类似自动驾驶的示意图:

从这个角度来说，现在能完成的不到10%。更何况这只是比较简单的C端场景，B端场景比这复杂多了。注7：这部分更详细的描述参见《

比如:智能原生应用的脑、手、心

》

小结

AI业务一直都是这样的状态。一旦有了突破，大家都会欢欣鼓舞，然后期望值就上去了。有什么能立刻匹配这种期待？是资本和营销热。因此，它将很快变得无处不在，并看到许多高估值。但是把业务和这个预期匹配起来就困难多了，不过这是行业首创。不同行业的速度差不一样。互联网的匹配速度其实是最快的，AI的匹配速度大概更像传统软件，仅次于互联网，但比消费类产品更快。

注8:上面说的大模特课程二维码也是原文链接。