为什么说AI还没准备好?  第1张图片来源@视觉中国

文|李志勇

最近艾被妖魔化了,很像老虎,还没到橘猫那么大就被天天讨论成了。这种普遍的高期待其实是有害的,尤其是事情本身就需要耐心,需要精心的培养,需要长跑。资本和品牌可以匹配高预期对应的增长倍数,而商业不行,商业天生挤掉所有泡沫。所以我最近写了几篇文章建议大家用更理性的态度看待AI的进步,甚至设想一种测试智能的方式:图灵测试2.0。这篇文章是对以前文章的综合。

AIGC的GC(内容生成)是支点也是锁链

显然,AI是一种基础设施,它正在重新定义计算的内涵和方式。

如果和过去相比,那么过去的编程固化了程序员的智能,程序员的智能通过程序在有限的边界内处理问题,所以pan-IT的崛起是伴随着程序员的崛起,无论程序员的数量还是收入。AI很大程度上折叠了这个中间环节,即对话即计算,同时也让这种计算更加一般化、无国界。从这个角度来说,AI的崛起注定伴随着程序员群体的衰落(首先是数量,但不是说这个行当没了)。

为什么说AI还没准备好?  第2张(用户-程序员-程序-计算机-互联网计算模式)为什么说AI还没准备好?  第3张(人工智能的用户计算模式)

基础设施的最终成败一定在于外部,而不在于自身的特点,比如是否优秀,大的模型有多大等等。在过去,微内核操作系统曾经风靡一时,但实际上,无论是Linux还是Windows都不是微内核,Minix等纯微内核系统只是教具。

作为基础设施,AI也是如此。如果它想要成功,就必须超越简单的内容生成工具的范围,成为一个通用的计算平台,为各种场合提供新的计算方法。

以前Windows和Linux都提供了这种多功能性,从ATM到机场的大屏幕,再到家里的机顶盒,甚至一点点智能闹钟,都提供了基本的计算能力。有时这些系统会崩溃。令人惊讶的是,很多系统其实都是XP。

AI打破内容生成工具的边界后,就会成为这种新的计算基础(一般人工智能的大致对应就是这种情况)。只有成为这个通用计算基地,AI才能真正迎来自己的星辰大海。

在当前的内容生成型AI和这种通用计算基础之间,存在着一条看不见的基因链。

这个基因链就是内容生成工具的边界。

AIGC的内容生成既是支点,也是链条。

在工具领域,这一次AI其实已经做得足够好了,就是池子太小,这样做的话会闷死所有人。

注1:如果你真的对大模型下新计算模式的技术感兴趣,可以扫描文末二维码。这个课程是我和知乎的一个哥们做的,比较认真,不是废话。卓然早年做三角兽的时候,我们接触很多。我们在GPT2的时候就一起遵循这个模式。我还是有分数的,但是课程还是感觉有点难,而且是收费的,所以我自己看着办。

注2:关于AI的计算模式参见《

开源模式LLaMA 2会起到类似Android的作用吗?

GC工具池子太小做的人太多,会憋死所有人

我们举个具体的例子来看为什么这个池子太小了。

起点有个网络作家,笔名是我吃西红柿。这位87年的同学,原本是苏州大学数学专业的大学生。按照正常轨道毕业后,他很可能无法继续从事数学相关的工作。那时候他很可能是程序员等相关方向的。然而,他没有走寻常路。他在大学期间就开始写网文,取得了不错的成绩。2012年11月,以2100万的版税收入位列“中国网络作家富豪榜”第二名。

假设他一年写300万字的小说,放大就是1000万token。现在这部分我自己不写,但是用AI。只需选择国内某大型车型的报价作为参考即可。按照1500元/5000万token计算,这部分能为人工智能公司创造的收入是300元,占2100万收入的十万分之一多一点。再放大,如果有一万个西红柿我吃,那么AIGC在网文行业可以赚300万。这还不够一个团队一年的工资,尤其是高端人才,连一个人都不够。

如果大模式只做内容生成,创造的价值和行业现有价值大致相当。

很多人都冲进去了,这和小池子里养一堆鲨鱼很像。如果你很饿,你只能想尽办法滚进去自相残杀,然后有很大概率全部死掉,一个不剩。

如果AI不能比GC走得更远,那一定是尽头:带着快乐期待的高度内卷。

这种内卷是完全的负反馈,对AI整体来说是一个死胡同。

大家期待的是一个新的通用计算平台和应用,其实只是一个内容生成工具,创造一点新的价值。怎么能长时间没有负面反馈?

那AI怎么出来?答案是你需要通过图灵测试2.0。

注3:关于AI的商业模式的汇总参见《

AI能赚钱吗?

图灵测试2.0

最初的图灵测试是这样的:

为什么说AI还没准备好?  第4张这是一个纯智能的测试,本质是在一个封闭的系统中追求逻辑自洽。

现在让我们给这个测试添加一个类似的代理概念:

为什么说AI还没准备好?  第5张这是图灵测试2.0。与1.0相比有哪些核心区别?

产生幻觉是有界限的。

1.0是凌空系统,合理的错觉其实有助于通过测试,2.0不是,测试者接受真实场景和被测试者双方的反馈;其次,测试边界的定义需要更高的智能深度。这很像赵括学兵法能说的话,但不一定能打;孙子兵法你不一定懂,但水站、陆站、马站你得懂。

能否打破内容生成的边界,成为各种场合使用的新的通用计算平台,取决于智能能否跟上。智能能不能跟得上,要看在每个场景下能不能通过图灵测试2.0。

Linux、Windows等输出智能的方式虽然老套,但提供了足够的确定性。和程序员一起达到了所谓的软件吞噬世界。这是一个足够好的计算模型,但是现在的AI不是。

现在的大模型确实提供了更好的计算形式,但关键是它不智能(过不了图灵测试2.0),所以无法取代过去系统和程序员的结合。智能的边界限制了应用的边界。

注4:图灵测试2.0的展开参见《

AI的进步不是太快,而是太慢。

通过图灵测试2.0后会怎么样呢?

届时,不仅客服和外呼将基于AI构建,现有的每一个应用(Office等已经启动,游戏将大概率爆发真正的多维叙事和高度随机,聚焦智能新游戏),广告屏,智能音箱,电视甚至手机都将被重组。因为基础计算范式发生了变化,它的交互载体必然会发生变化,这种变化可能大于从PC互联网到移动互联网的变化。从这个角度来看,机器人一定是下一个通用计算平台产品。

极端来说,除了霓虹灯、计算器等极端机械的产品,一切都会改变。

这个视角可以描述为场景的智能密度。显然,拧一个螺丝的智能密度低于计算一道数学题的智能密度。

智能密度越高,计算方法和相应的产品会发生越多的变化,因为价值更大。然后从数字到实物匹配视角,有无错觉。基于图灵测试2.0,再加上这三个视角,也制约了智能应用的未来发展。

这一路线实现的具体体现就是我们常说的代理。

如果我们用智力密度(原点为0)、物理程度(原点为0,代表纯数字应用)和幻觉危害性程度(原点为0,代表幻觉无害)画一个坐标系,把这个图安排在正中央,下图的头部是什么?

为什么说AI还没准备好?  第6张答案大概是:游戏,多维叙事游戏。注5:大模型的落地应用的形式参见《

AI Agent:大模型与场景之间的价值桥梁,但不适合纯技术。

Agent不是大模型的延伸而是新物种

只有图灵测试2.0才能有真正的智能体。但需要注意的是,agent不是大模型的延伸,而是一个新的物种。做汽车发动机和做汽车不一样,虽然汽车没有发动机是跑不起来的。

只有Agent才能掀起AI的浪潮,而能掀起AI浪潮的Agent不是其他简单集成AI特性的应用,而是智能原生Agent。在这种情况下,Agent不仅仅是将智能传递到特定场景的管道。

智能本地应用的组成;

为什么说AI还没准备好?  第7张在这种思维模式下,AI注定要被放在一个结构的中心:为什么说AI还没准备好?  第8张https://www . ericsso n . com/en/reports-and-papers/white-papers/ai-native

在这里,大模型扮演引擎模式,如果它未能通过图灵测试2.0,智能原生应用程序将非常类似于骡子拉的汽车。

通过这个测试后,再加上上述的感知、目标、反馈、使能等环节,Agent才能真正成为新的通用计算的载体。只有通过这个测试,发动机才能一步步被蒸汽机、内燃机、涡轮增压等等取代。代理范围的扩大,注定是一步步提高智能的过程。

注6:智能原生相关展开参见《

从手机App到AI原生应用

现在能不能过图灵测试2.0呢?

答案是否定的,这就是现在的AI不好的原因。

我们可以降低标准,让它更垂直。只要范围够窄,所有的测试都可以通过,但那是没有意义的。我们看一下前面的具体例子,就能理解上面的整个逻辑链:我们过不了图灵测试2.0,我们也成不了智能原生应用的基地,只是卡在了AIGC这样的小池子里,所以现在的AI并不好。

如果你想开播,但又不想自己做,而是想做自己的数字代理或者分身,这个数字代理到底想达到什么目的?(取得成绩是指有人愿意看,有粉丝等。)

首先是最基础的产研部分:先搭建自己的外壳,也就是形象要那样,然后再配以看、听、说、想的能力(电脑输入输出、存储、CPU...).而阅读、听力、口语基本都是基于过去十年反复打磨的技术,比如图像识别、语言识别、语音合成等。思维部分基于大模型,负责综合各种输入产生自己的输出。程序员把这些都串联起来,基本上就有了一个数字头像,可以根据观众的各种输入给出一些反馈。但是产品在这里基本完成了手眼部分,大脑部分属于它,但是不好用。这个时候就算是最好的大模型导入,也还是一个傻逼Bot,别说取得成绩,基本上没有人会看完任何一个直播段子。这个时候在单点技术(包括大模型)打滚是没有前途的,粉丝留不住,回报大致为零。

改善的第一步肯定是加入性格特征,让它更像你,比如对人是否友好,表达是否犀利,是否社交:会说话,有感情联系。这个时候,试着回忆一下你过去对某个人说过的话。这部分不是纯技术的,但是技术关联度还是很高的。通常情况下,你需要寻找过去工作过的老司机。单纯做prompt估计做不到(注1提到的课其实就是这个值)。这一步是一个障碍。如果做到了,就通过了图灵测试1.0。别人分不清是不是你,现在完全做不到。聊天没有界限还可以,但是说到性格特点就没你想的那么好了。如果我们做不到会发生什么?我会看一个有点聪明,有点像你的人,在那里说,但是没有特点,没有意思。能吸引粉丝吗?看你播什么了。估计有可能会播动物世界,娱乐性估计很差。这是后面的话题,关键因素进一步从技术转移到产品。

通过图灵测试1.0的智能产品已经很有用了。在此之前,它们是纯粹的工具。之后就有点代理的意思了,但是价值没有想象中那么大。

图灵测试1.0这样的数字二重身有什么用?

它的优点是信息吞吐量大,不知疲倦,人对人;缺点是智力不够,做不出很好的性格、才华、出众的观点、有趣的即兴表演等。适合做什么?适合内容本身有趣,主播是配角的东西。

那些东西呢?比如播动物世界,讲故事,播新闻,偶尔穿插一些互动。这本质上是一个更好用的智能音箱。

这是什么?就是降低场景对智能的需求。情报供给不足只能降级。

理想的情况是怎样的?

理想情况下,这个数字化身还应该能够访问实时热点,动态生成要输出的内容,比如图片、视频,然后做主播。这个热点要匹配大家的关注点,要新颖,要匹配平台的规则,不仅是正向规则,还要把握反向尺度,否则就会被冲昏头脑或者被封杀。这一章衍生了很多细致的工作,比如现在主推的主题,这得跟平台走,不然权重不好也不会推你。这对于平台来说是一个智能到智能的过程,对于受众来说是一个综合分析的过程,对于创作来说是一个创意创新的过程。如果你能做到,你就能通过图灵测试2.0,一旦通过,你至少可以和人类分享这个世界。如果过不了,比如不管内容的时效性还是平台热点的捕捉,还是会事倍功半!是情报供给不足。如果这部分成功了,基本上就能有粉丝了。只有在这里,大脑才成长起来,培养出自己的风格。

假设能做到这一点,就结束了吗?

还没有。这些都做到了,主要解决了硅基智能和硅基智能的关系,相当于能够把匹配平台的规则和现实中的热点进行对比。

郭德纲称赞人的主要方法是反复提到这个人。如果有人拉你当主播显然更好。那么和谁合作,怎么合作,还是需要人来做。覆盖整个场景才是你真正的代理。

以上可以总结成一个类似自动驾驶的示意图:

为什么说AI还没准备好?  第9张从这个角度来说,现在能完成的不到10%。更何况这只是比较简单的C端场景,B端场景比这复杂多了。注7:这部分更详细的描述参见《

比如:智能原生应用的脑、手、心

小结

AI业务一直都是这样的状态。一旦有了突破,大家都会欢欣鼓舞,然后期望值就上去了。有什么能立刻匹配这种期待?是资本和营销热。因此,它将很快变得无处不在,并看到许多高估值。但是把业务和这个预期匹配起来就困难多了,不过这是行业首创。不同行业的速度差不一样。互联网的匹配速度其实是最快的,AI的匹配速度大概更像传统软件,仅次于互联网,但比消费类产品更快。

注8:上面说的大模特课程二维码也是原文链接。