赵何娟对话王维嘉:AI没有系统性泡沫,原生AI应用将在三年内爆发 | 巴伦精选
创始人
2025-12-26 22:16:16

12月20日,在钛媒体2025 T-EDGE全球对话中,钛媒体集团创始人、Barron‘s中国出版人「赵何娟 Talk」(Jany Talk)与硅谷资深投资人、企业家王维嘉先生展开了一场深度对话。

两年前,ChatGPT风靡全球时,我们曾与王维嘉深入探讨AI的未来。两年后的今天,当Google Gemini 3掀起新一轮技术竞赛、华尔街开始质疑AI泡沫、扎克伯格开出天价年薪抢人时,我们再次坐下来,拨开喧嚣,回答那些真正重要的问题:

模型竞争的终局是什么?哪些应用会率先落地?人类与机器的边界在哪里?未来一到三年,什么才是真正值得关注的变化?

以下为本次对话核心观点摘录:

1、OpenAI不会轻易出局,未来是交替领先的动态格局。只要各家公司使用相同的Transformer架构和技术路径,差距就不会是不可逾越的,未来将是“你六个月超越我,我再六个月超越你”的持续迭代,不会突然出现某一家遥遥领先、无人可及的局面。

2、当前对英伟达的主要挑战在于,各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,其将面临被替代的风险。未来云服务市场越集中,对其越不利,市场越分散,其地位越稳固。所以,英伟达很积极扶持新兴云厂商,如Oracle、Nebius、CoreWeave等,以维持生态多样性。

3、未来的模型竞争将从同质化走向高度差异化,这正是强化学习驱动下、基于不同应用目标和数据空间定向演进的必然结果。各家公司通过强化学习在不同知识中定向探索,科研、制药、编程、历史等垂直领域都将诞生专业化的行业通用大模型。

4、任何AI应用如果能同时满足以下三个条件,纯数字化、具备训练数据、拥有明确的奖励函数,就更有可能快速取得突破;反之,如果缺少其中任意一项,进展通常会较为缓慢。

5、AI泡沫论的本质是节奏问题。只要模型能力持续提升,AI就不存在系统性泡沫,模型能力决定一切,其他因素都是次要的。即便预训练见顶,模型的经济价值仍远未释放。真正的风险在于生态发展的不均衡,基础设施可能提前建成而应用尚未成熟,导致局部性、阶段性的泡沫,但这只是暂时调整,而非根本危机。

6、当前的Transformer架构下,AI不可能产生意识或情感。机器缺乏内分泌系统,没有内在的奖惩机制和欲望,一切行为都是确定性的输入输出。而且,比起担忧AI控制人类,更应警惕坏人利用AI。

7、AI时代最难被替代的是高斯分布极端尾部的天才,扎克伯格开出天价年薪正是对这一趋势的预判。同时,AI能力的提升正在颠覆VC模式,技术背景深厚的创业者可能不再需要融资,靠产品力就能从零做到十亿美金收入。

8、语言是人类与动物的根本区别,是人类跃居食物链顶端的核心能力。从文字中学习3D空间信息是间接且低效的,李飞飞的空间智能研究更直接高效。但仅依靠空间模型无法完成所有任务,必须同时具备语言模型和空间模型,语言提供抽象能力和行动指令,空间提供物理世界理解,两者缺一不可。

9、未来1-3年Agent成熟与原生应用爆发,创业必须做原生应用,不能做AI赋能,在旧模式基础上修修补补,肯定竞争不过大公司,原生应用才是创业机会。

以下为「赵何娟Talk」与王维嘉的完整对话的实录:

赵何娟:欢迎来到新一期《赵何娟Talk》。本期嘉宾是我的老朋友——硅谷知名投资人、企业家王维嘉先生。两年前我们曾就刚刚火爆全球的GPT进行过一场影响深远的对话;如今两年过去,AI虽仅走过“人间一年”,却已带来天翻地覆的变化。很高兴再次邀请您,维嘉老师!

王维嘉:大家好!很高兴再次参与你的节目。

大模型竞争与未来差异化

赵何娟:今年年底发生了两件重大事件,引发了科技行业、投资界和金融界的广泛关注。第一件事是, Google 推出 Gemini 3 后,对 OpenAI 造成了一些声量上的冲击。 ChatGPT 推出后,业界公认OpenAI 是生成式 AI 技术浪潮的开创者与奠基者。然而,随着 Gemini 3 的发布,舆论普遍认为 Google 已在技术能力上与 OpenAI 平起平坐,并在短短三年内迅速追平,甚至被视为新一代的 AI 霸主。

第二件事是,近期市场突然开始高度关注“AI 泡沫”问题,美股也正经历显著调整。尤其在11月和12月,美股出现明显下跌,其核心驱动因素正是 AI 相关股票的大幅回调。华尔街普遍担忧 AI 领域存在严重泡沫,尤其对以英伟达为代表的芯片企业提出质疑——包括其AI数据中心业务所依赖的循环贷和高杆杠债务模式,以及持续循环投入资本的商业模式,均引发了广泛怀疑。

围绕上述两个热点事件,请维嘉老师谈谈您的看法。

王维嘉:要判断人工智能是否存在泡沫,首先需要厘清AI究竟能做什么。我认为,Google是一家我非常尊敬的公司,其技术实力毫无疑问位居全球第一。没有任何一家公司在人才储备方面能与之相比,且不说Transformer架构正是由Google发明。此外,DeepMind的CEO 德米斯·哈萨比斯(Demis Hassabis),我认为是当今AI技术领域中最顶尖的人物之一,不仅极其聪明,而且深耕行业时间最长,具备深厚的积累。再加上Google的两位创始人均为斯坦福博士,如今又重新亲自投入一线工作,因此该公司强势回归并不令人意外。

过去,包括我自己在内的许多人主要担忧的并非Google的技术能力,无论是模型性能还是计算能力,我对此毫无疑虑。真正令人关注的是其核心搜索业务在多大程度上会受到AI的影响。这种影响不仅来自外部竞争者如ChatGPT,更可能源于Google自身的产品迭代,即“左手打右手”的问题。

以我个人为例,过去几乎100%使用Google进行搜索,如今这一比例已降至约10%,其余90%的时间都转向使用Gemini。这种使用习惯的转变无疑会对Google的搜索业务构成冲击,这也是市场最关心的问题所在。

然而,过去两个季度的数据显示,Google的搜索业务并未因此明显下滑。但我认为此事尚无最终结论,原因在于,当前主流的Chatbot聊天机器人还没有采用免费+广告的商业模式。只要它们不接入广告系统,广告主就仍需依赖Google投放广告,所以,真正的考验还没有到来。一旦这些AI产品未来转向广告驱动模式,才真正需要评估Google搜索业务所受的实际影响。

如果Google能够成功将用户引导到Gemini平台,不流失到竞争对手,这才是最佳结果。所以,目前对其搜索业务前景的担忧仍不能下定论。

其次,Google的一大核心优势是垂直整合能力。在设计TPU和算力中心时,Google已对其目标应用场景有清晰认知,这种应用导向直接影响它的网络架构设计。所以,整个算力基础设施可针对自身应用进行高度优化,从而实现最低的单位成本。

在AI领域,Token成本是关键支出项,如果Google能持续保持成本优势,再结合其长达12年的TPU自研经验,将会形成独特壁垒。

综上,Google在模型研究、自有算力和应用场景三方面均具备领先优势,构成了高度协同的系统集成能力。

相比之下,其他科技巨头则存在明显短板。例如Meta,模型表现不佳,否则不会花费十亿美元高薪聘请工程师;同时,它也缺乏自研TPU能力。微软此前主要依赖外部模型,Amazon在基础模型方面几乎未见显著成果。因此,在模型、算力与应用三大维度均实现自主闭环的公司,目前仅有Google。

至于英伟达与Google的关系,并非直接竞争。即便Google对外销售TPU,该业务也难以成为其核心收入来源。更重要的是,英伟达的最大客户恰恰是Amazon、Microsoft、Google和Meta等云服务商。这些公司彼此之间是直接竞争对手,不可能依赖Google提供芯片,他们只能选择中立的英伟达。因此,在芯片层面,Google对英伟达不构成实质性威胁。

当前对英伟达的主要挑战在于,各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,英伟达将面临被替代的风险。

未来云服务市场越集中,对英伟达越不利,市场越分散,其地位越稳固。所以,英伟达很积极扶持新兴云厂商,如Oracle、Nebius、CoreWeave等,以维持生态多样性。

第三类应用场景来自大型企业客户,如沃尔玛、《财富》500强公司,这些企业几乎不可能自研芯片。对它们而言,关键问题是在云平台上选择TPU还是GPU。目前,在Google Cloud Platform上,绝大多数第三方用户仍主要使用GPU,原因有两个,一是CUDA生态成熟,开发便捷;二是GPU具备极强的部署灵活性,用户可按需从单卡扩展至万卡规模,动态适配算力需求。而TPU则采用固定规模的block设计,一个block包含9,064个TPU,难以支持小规模或灵活配置,这一限制构成了TPU在通用市场推广中的潜在障碍。

赵何娟:那Open AI呢?

王维:谷歌对OpenAI是更直接的挑战,因为他们在模型层面是直接竞争关系。例如,Gemini 3 的推出就是明确对标 ChatGPT 的。

近期网络上有一种声音认为 OpenAI“肯定死定了”,甚至将其比作当年的 Netscape。对此,我个人并不认同。我在硅谷生活了四十年,深知创办一家公司要面对多少艰难险阻。几乎每十个你接触的人中,有九个九会告诉你“这事办不成”。正因我自己也有过类似的创业经历,所以我天生对创业者抱有同情,算是我的一个情感上的 bias。

在澄清这一点之后,我想表达的是,我不相信任何一家公司能做出一个“好到别人完全无法复制”的模型。你看,梁文峰带领一支仅两百人左右的团队,在缺乏充足算力资源的情况下,依然做出了非常出色的模型;千问的模型也不错。既然如此,凭什么就认定ChatGPT一定竞争不过 Google 呢?

未来的格局一定是这样的,今天我发布一个模型,你六个月后推出一个更好的;我再过六个月又超越你一点,这是一个持续迭代、交替领先的过程,而不是某一家公司突然遥遥领先、无人可及。

原因在于,从模型训练、算法架构到数据使用,目前各家所依赖的核心技术路径并无本质差异。除非 Google 发明了一种全新的、与 Transformer 完全不同的底层算法,并且该算法是保密的,这种可能性理论上存在。但只要大家仍在使用 Transformer 架构,沿用当前主流的预训练、强化学习、后训练以及测试时训练(test-time training)等大方向,那么彼此之间的差距就不会是不可逾越的。

这让我想起几年前国内做视觉模型时的情形,很多公司宣称自己“在全球榜单上排名第一”,但实际上很大程度上只是通过精细调参实现的短期优势。如今的大模型竞赛也类似,调参能力固然重要,但并不能决定长期胜负。

我认为 Google 的模型未来无疑会是“最好的之一”,但我并不认为其他公司就做不出同样优秀甚至更好的模型。Meta 有可能,Microsoft 也有可能,只要有足够的时间和计算资源,差距是可以被追赶甚至超越的。

所以,现在就断言 OpenAI “已经完了”,为时过早。

赵何娟:当大模型的能力差距不再显著时,它们真正比拼的是什么?是不是转向了生态应用层面的竞争?

王维嘉:这是一个很好的问题。先说模型,大家普遍存在一个误区。大模型发展的最初两年,很多人认为它未来会是“大宗商品”。原因在于,大家使用的都是 Transformer 架构、参数规模相近、训练数据也主要来自公开互联网,所以人们觉得最终各家模型的性能会趋于同质化,难以形成差异化。

在2024年O1出来之前,这个判断基本是对的。但现在情况不一样了,强化学习(Reinforcement Learning)的引入开始推动模型走向差异化。

强化学习的作用类似于 AlphaGo Zero 在围棋中的自我对弈机制。不同公司通过强化学习所构建的“思维链”(reasoning chain)路径各不相同。所谓知识,本质上是在看似不相关的知识点之间建立联系。

人类的知识是多维的且近乎无限的空间,其复杂度远超围棋可能的走法数量,而围棋的总局面数已超过可观测宇宙中的原子总数。如果在预训练阶段趋同的前提下,未来模型的差异化将主要取决于各家公司如何利用强化学习在各自关注的知识子空间中进行定向探索。

例如,一家专注于科研或制药的公司,会引导模型在蛋白质结构、小分子构型等特定领域深入挖掘,而对历史、人文等内容则不予关注;反之,若一家机构聚焦于历史研究,其模型就会集中学习历史文献,完全忽略分子结构等科学数据。

因此,回答你的问题:未来的模型将是高度差异化的,而这正是强化学习驱动下、基于不同应用目标和数据空间定向演进的必然结果。

赵何娟:如果强化学习确实带来了模型的差异化,是否意味着未来的通用大模型赛道将逐渐分化为多个“行业通用大模型”的细分赛道?

王维嘉:基本上是这样。一旦模型走向专业化,例如在企业级编程领域,目前 Cursor 和 Anthropic 的模型表现就非常突出。这自然引出了应用层面的问题,当大模型在特定方向上实现差异化后,在对应的垂直应用场景中,它就会成为最优选择。

因此,未来的竞争不仅体现在模型本身的差异化,也体现在应用层面上的分化。各家公司将在各自专注的领域构建起独特的护城河。这是一个基本判断,两年后再回看,这一趋势可能会变得更加清晰。

赵何娟:这个判断非常清晰,也给正在或希望在 AI 领域创业的人带来很多启发,机会依然存在。中国的“大模型七小龙”如今也开始出现分化,有的转向行业模型,有的彻底转型为产品化公司,还有的仍在坚持研发通用大模型。

王维嘉:但有一点需要注意:如果你要做的是应用,不一定要从基础模型做起,因为预训练成本极高,训练一次大模型可能耗资数亿美元。

真正有能力从头训练基础大模型的公司,全球范围内可能用两只手就能数得过来,这些基础模型本身也在分化。例如,Anthropic 目前专注于文本(text),并未涉足多模态、图像或视频,因为对其目标而言,这些方向并无必要。梁文峰同样选择了不发展多模态能力。

由此可见,大模型的分化维度实际上比应用的分化更为宽广,在一个高度差异化的基础大模型之上,仍然可以构建出多个面向不同细分市场的应用。

AI应用落地的三大条件

赵何娟:再谈谈应用。从您认为哪些赛道能快速出现一些好的应用?

王维嘉:有的应用发展快、有的应用发展慢,肯定是参差不齐的。我可以提供三个关键判断标准。

第一,是纯数字化。凡是涉及物理空间交互的应用,其发展就会受到显著制约。比如机器人的灵巧手,仅实现高度灵活的操作就可能耗费五年以上时间。

第二,拥有充足的训练数据。有些领域虽然是数字化的,但如果缺乏高质量、可获取的数据,同样难以支撑有效训练。

第三,也是最关键的一点,必须有明确的奖励函数(rewarding function)。强化学习的核心在于持续探索并获得反馈:系统需要清楚地知道某次决策是对还是错,从而调整后续行为。如果无法提供这种即时、明确的对错反馈,模型就难以有效优化。

任何AI应用如果能同时满足以下三个条件,纯数字化、具备训练数据、拥有明确的奖励函数,就更有可能快速取得突破;反之,如果缺少其中任意一项,进展通常会较为缓慢。

举个例子:金融领域的AI应用就具备这三项条件。首先,金融交易完全是数字化的;其次,存在大量历史数据,如股票价格、交易记录等;第三,奖励函数非常清晰,可以通过回测(backtesting)验证策略是否盈利,即“赚钱为正反馈,亏损为负反馈”。因此,这类应用更容易快速发展。

相反,以“保姆机器人”为例:首先,它涉及大量物理交互,不符合纯数字化要求;其次,缺乏明确的奖励函数,什么是“好保姆”?标准模糊且主观;最后,相关训练数据也极难获取。这三个条件均不满足,因此我对这类应用持高度保留态度。

赵何娟:您还有哪些领域是特别不看好的?

王维嘉:我提供的是一个通用的判断框架,而不是针对某个具体行业下结论。比如,如果我随便点名某个我不熟悉的行业并做出负面评价,那是不负责任的。但只要用前述三个条件去衡量,纯数字化、有训练数据、有明确的奖励函数,基本上就能判断出八九成的可能性。

赵何娟:您觉得媒体行业是否符合您提出的这三个标准?

王维嘉:如果要用 AI 做媒体,首先需要定义什么是“好的内容”。在这方面,其实是有数据的,流量本身就可以作为数据,也可以视为一种奖励函数:高点击、高停留、高互动通常被当作正向反馈。内容本身则是训练数据。从这个角度看,媒体行业是有可能满足这三个条件的。

但需要强调的是,这三个条件只是必要条件,而非充分条件。即使满足了它们,要真正做成产品或公司,还需要其他要素,比如对媒体行业的深度理解、充足的资金、高质量的工程团队、有效的训练策略等。

你可以这样理解,这三个条件是否定性标准,它们能帮你排除不可能的方向,但不能保证肯定成功。例如,即使 Elon Musk 亲自来做家政机器人,也很难突破物理交互、数据缺失和奖励函数模糊这三重障碍,这也解释了为什么他的人形机器人至今尚未在家庭场景落地。

赵何娟:您如何看待人形机器人用在工业领域的应用?

王维嘉:工业场景是完全不同的。首先,工业环境对手部灵巧度的要求取决于具体任务。比如 Amazon、京东或淘宝的物流系统中,分拣、装箱等操作并不需要高度灵活的手,这类任务已经可以通过现有技术解决。

其次,工业场景通常具备大量可采集的操作数据,便于训练和优化。因此,我对工业机器人持积极看法。

但我依然不看好家政类人形机器人,比如在家做饭、炒菜、照顾老人、更换尿布等场景。这些任务对手的柔软性、灵敏度和环境适应能力要求极高。试想,给婴儿换尿布需要多么精细、轻柔且可靠的操控,目前的技术远未达到这一水平。因此,在可预见这类家庭服务机器人几乎不具备可行性。

赵何娟:生成式AI,为这些行业带来哪些新的机会?

王维嘉:生成式 AI 最大的好处就是灵活,不需要重新编程嘛。

机器人应用,比如你说你到了特斯拉的汽车工厂,全是机器人——那都是编死的动作,连 AI 都不要,就是软件就完了。那些东西,我觉得只要你汽车的结构不变、零部件不变,那些东西不会被取代的。因为那肯定效率比你用生成式要快,成本要低,因为它就编个软件写死了。

我觉得,比如说屠宰场,或者是流水线包装的东西,或者到商店里头放货架——不是那种特别容易“邪见”(注:此处应为“斜向”或“复杂场景”的口误,但按要求保留原词)去生成的话,你就告诉他:“你把这东西给我放到货架上去”,这就比较容易做。

所以还是有很多应用,但是相对来说,还都是比较简单的物理交互。

AI市场泡沫与人性本质

赵何娟:您觉得当前AI市场是否存在泡沫?

王维嘉:这正是我一开始强调要回归模型能力的原因。我们需要关注的是,大模型未来还能做些什么?此前一段时间,业界普遍担忧预训练(pre-training)是否已经接近极限。关于这一点,各方看法不一,例如Ilya Sutskever认为预训练已基本到顶,而包括Google在内的许多公司则认为远未达到上限。

但无论预训练是否见顶,强化学习(reinforcement learning)的探索才刚刚开始。这意味着,至少在强化学习方向上,还有大量空间可以挖掘。因此,模型的能力显然仍在持续提升,尽管提升速度可能逐渐放缓,但趋势是明确的。只要模型能力继续增强,其经济价值就会随之提高,因为“智力”本身在进步。

更进一步,即使采取最保守的假设,即模型能力从此刻起不再进步,仅凭当前的能力,AI已经能够完成大量任务。例如,前两天热议的“豆包手机”所演示的功能:“帮我买个东西”,以现有模型能力完全可以实现。当然,目前仍存在操作系统整合、不同App之间的打通、数据互通以及隐私保护等实际问题,但这些问题本质上是工程和制度层面的障碍,是可以被解决的。

换句话说,即便模型能力就此停滞,其潜在经济价值也远未被充分释放。

而现实情况是,几乎所有从事大模型研发的公司都认为模型能力还远未到顶。我至今没有听到任何一家主流大模型公司宣称“模型已经做到极致”。既然如此,我们就必须相信,模型仍有巨大发展空间。只要这一前提成立,AI的整体经济价值就依然可观。

当前有人担忧全球在AI算力上的投入已达万亿美元级别,未来三到五年能否产生相匹配的价值。从目前趋势看,答案应该是肯定的。因此,从长期视角来看,只要模型能力尚未触及天花板,AI就不会出现系统性泡沫。这是我第一个核心观点,模型能力决定一切,其他因素都是次要的。

当然,这并不排除局部或个别层面存在泡沫。

AI应用的发展并非线性推进,它可能需要两三年的积累才能迎来突破。如果基础设施提前建成,而应用尚未成熟,就会导致算力闲置、资源浪费,进而造成亏损,这种情况完全可能发生。

因此,整个AI生态系统的演进是高度不均衡的。这种参差不齐的发展节奏,很可能在特定时间点或特定领域催生局部泡沫。例如,今年投入了2万亿美元,明年却未能推出真正有影响力的爆款应用,市场信心可能受挫,甚至出现一到两年的回调或“崩盘”。

但只要模型能力持续进步,这类调整只是暂时的。对投资者而言,关键在于识别真正优秀的公司,只要公司基本面扎实、技术方向正确,短期波动无需恐慌,只需耐心等待下一轮上升周期的到来。

赵何娟:当前这种指数级增长的需求,是来自推理(inference)还是预训练(pre-training)?

王维嘉:主要是推理需求。从用户的角度来看,绝大多数需求都体现在推理阶段。每家公司训练模型是一次性的投入,而真正持续产生的是推理需求,也就是用户在实际使用模型时所产生的调用。

因此,我并不担心未来 Token 需求的问题。Token 本质上等同于“智力”,而智力又直接转化为财富,人类对财富的追求何时有过尽头。你身边可能有人拥有一个亿、十个亿,甚至一百个亿,但你见过谁说“我的钱已经足够多了,再也不想要更多”,没有人会这么说。所有人都希望获得更多。

最近有一种论调认为,AI 时代将带来abundance, Elon Musk 说未来人人收入都很高,社会问题也将迎刃而解。但我认为这种观点完全误解了人性。以中国为例,与50年前相比,今天的生活水平可能提升了上百倍,但人们真的比50年前幸福了100倍吗?显然没有。人们总是会拿自己和更高标准比较:“我住100平方米,别人住200平方米”,永远不满足。

因此,我不认为 AI 能从根本上解决人类社会的矛盾。人是有“原罪”的,人生来就是自私、贪婪,这是刻在基因里的,无法被技术消除。AI 无法解决这一根本问题。所谓abundance的说法,只是一种技术浪漫主义,我认为这种看法是完全错误的。

赵何娟:确实,人性的欲望和弱点似乎深植于我们的基因之中,很难改变。但如果 AI 也被训练出类似的弱点呢?毕竟 AI 是由人类训练出来的。如果它也具备了这些人性的缺陷,对人类而言岂不是一场灾难?

王维嘉:这就回到了另一个根本问题:AI的主人究竟是谁?是人类,还是 AI 自身?只要 AI 仍然是人类的工具,即便它表现出某些“弱点”,也并不可怕,因为它是被我们所使用、所控制的。我们可以对它施加限制,也可以设定边界。

当然,这已经触及更深层次的问题,即AI伦理层面的讨论。

赵何娟:前几天我与 Geoffrey Hinton 交流时,他提到如今他不再专注于如何发展 AI,而是着重思考如何避免 AI 对人类发展产生破坏性影响。他认为关键在于让 AI 形成一种类似母婴关系的机制,即一种天生的对人类的爱护,就像母亲对婴儿的关爱一样。他这个观点的前提是,AI已经具备意识了。

王维嘉:我基本不同意 Geoffrey Hinton 的观点。

首先,AI 是否有意识,或者未来能否拥有意识,这是一个非常复杂且难以界定的问题。至今为止,人类对于自身意识的本质都尚未有明确的定义,人类意识的起源仍是未解之谜,与宇宙起源、生命起源并列为当今人类面临的三大难题。既然我们无法明确意识的内涵,那么讨论机器是否拥有意识就缺乏基础,因为不同人对意识的理解可能截然不同。

所以,我们不妨先搁置意识这一概念,转而探讨一个更可验证的问题,机器是否会拥有感情。机器没有内分泌系统,而人类的喜怒哀乐等情感与激素分泌密切相关,例如多巴胺会让人产生愉悦感,肾上腺素会让人激动。人类的内分泌系统极为复杂,激素的细微变化就能影响人的情绪。机器由于缺乏这一系统,目前是没有任何感情的。

赵何娟:我想就这一点与您探讨一下。人类作为碳基生命体,其情感等特征是由碳基元素及相关化合物驱动的,比如内分泌系统的作用,但硅基生命体不能简单地套用碳基生命体的驱动机制,它们可能存在不同的原理。

王维嘉:我首先就反对碳基生命和硅基生命这种说法。

目前我们所知的神经网络,包括拥有万亿参数的 Transformer,都只是确定性的机器系统,有输入就有对应的输出,不存在任何随机性、主观意志,更没有感情。把AI称为硅基生命,本身就是一种错误的假设,是循环论证。目前的硅基系统只是机器,并非生命。至于未来能否发展为生命,这还是一个开放性问题。

此外,所谓的碳基生命和硅基生命概念极具误导性。虽然人类由碳构成,但一块煤也是碳构成的,碳本身对于生命而言并不重要。生命并非仅仅是其组成原子的简单相加,而是远超部分之和的复杂存在。我坚决反对这种混淆基本概念的碳基生命和硅基生命说法。

赵何娟:人类的情感如喜怒哀乐、贪嗔痴恶等,是由多巴胺等生物因素驱动的。那么硅基有可能是其他驱动因素来产生类似的情感吗?

王维嘉:目前来看,我并不清楚是否存在这样的驱动因素。从现有的技术来看,机器内部没有任何情感因素。我们无法找到任何一个数学方程式能产生情感,机器的行为都是确定性的输入与确定性的输出。即使在输出分布中选择不同的样本,导致每次回答可能略有不同,但其底层的分布是完全一致的,没有任何随机性因素。

因此,机器不可能拥有我们人类所说的情感。

赵何娟:那么神经元的涌现呢?是否可能成为一种驱动因素,就像人类大脑中一样?

王维嘉:目前我们所知的 Transformer 等神经网络与人脑有相似之处,但并不完全相同。

我们对人脑神经元的复杂性了解还远远不够,人脑中的神经元比现有的神经网络复杂得多。如果要让机器拥有情感,可能需要构建一套类似人类内分泌系统的机制,让激素影响神经元的连接。例如,911那天在做什么、遇见心动的人是什么感觉,这证明人的记忆与情感是高度关联的。

但机器并非如此。机器对任何事件的记忆强度都是一样的,不会受到激素调节。仅从这一点就可以看出人与机器的差异,机器目前是没有情感的,也没有欲望,只能作为工具存在。至于未来是否可能通过强大的算力,精确模拟人类的每一个分子活动、激素分泌方程式,以及神经元与激素之间的关系,让机器拥有情感,这在理论上是有可能的。

但是,这种需要多大的算力,我根本想象不出来。

赵何娟:在硅基系统中,有没有可能存在一种我们尚未了解的机制。这种机制或许类似于人类的情感,但并非由生物机制产生的情绪因素。

王维嘉:首先,我要强调的是,机器不仅没有情感,甚至连欲望都没有。这就是为什么在强化学习中,我们必须为机器设计奖励函数。因为机器自身没有内在的奖惩机制,而人类的行为大多是由内在的奖惩机制驱动的。例如,人类饿了就会想吃东西,这种奖惩机制是内生的,存在于基因和内分泌系统中,是经过长期演化形成的。人类的奖惩函数大多是内在的,但机器没有。如果机器有内在的奖惩机制,我们就无需为其设计外在的奖励函数了。这也可以证明机器是没有欲望的,我们需要人为地将欲望赋予它们。

赵何娟:您刚才明确表示不认同 Geoffrey Hinton 的观点。除了他认为 AI 已经有意识之外,对于他提出的通过某种机制训练 AI,使其具备类似母婴机制的情感,您怎么看?

王维嘉:我认为 Geoffrey Hinton 的思考是非常有价值的。即使目前机器没有意识、没有情感,未来是否会拥有我们也不知道。但他已经在考虑,万一未来 AI 有了意识,我们可以采用类似婴儿控制母亲的方法,让 AI 怜悯人类。

现在更应该担忧的是坏人利用 AI,而不是担心 AI 来控制人类。至少目前还没到那一步,我非常尊敬 Hinton,他可能看到了我没有看到的东西,这是有可能的。但从我目前对 Transformer 的理解,我将其拆解到每一个神经元去分析,也看不到意识会如何产生。

世界模型与未来机会

赵何娟:您如何看待当前的大语言模型之争和世界模型之争?您认为其核心应该如何判断?

王维嘉:首先,我们需要明确什么是“世界模型”。如果世界模型仅仅是一个3D空间模型,那么它与情感等因素无关。目前,像李飞飞团队所研究的可能主要是基于3D空间的模型。如果不能清晰定义世界模型的内涵,讨论就会变得困难。

假设世界模型是指三维空间模型,我认同文字符号中确实包含三维空间的信息。例如,从“我这个杯子碰地下打碎了”这样的句子中,我们可以推断出杯子掉在地上会破碎,这本身就是三维空间的信息。

然而,正如 Geoffrey Hinton 所说,从文字符号中学习三维空间信息是间接且低效的。这就好比读一本描写贵族家庭的小说,虽然书中对房屋等细节有详细描述,但读者很难在脑海中完整构建出整个场景。因为文字是抽象的,会简化很多细节。相比之下,如果直接观察一幅图像,人们可以迅速理解场景,因为图像提供了更丰富的细节。

因此,李飞飞等人的方法,让机器人直接通过触摸等方式感知环境(类似瞎子摸象),来学习三维空间信息是合理的。这种方式比从语言模型中学习更直接、更高效。尽管语言模型中确实包含三维空间信息,但这些信息非常模糊、不直接且高度抽象。与其通过语言描述来学习,不如直接让机器人去感知和探索环境,这样能更清晰地建立概念。

赵何娟:真正的世界模型是什么样的?现在可能更多地被称为空间模型(spatial intelligence)最初李飞飞教授使用的概念。

王维嘉:人性也是世界模型的一部分。比如,我们培养一个孩子,希望他了解世界是如何运转的。我们肯定要教他人性、基本常识、经济运行方式、金钱是什么,这些都属于世界模型的一部分。还包括情感、欲望、宗教等,这些都是世界模型的组成部分。如果从这个角度来说,世界模型的范围就非常广泛了。我不认为李飞飞在做这样广泛的世界模型。

赵何娟:Jeffrey Hinton 提到一个问题,如果仅从空间智能的角度来看,认知 AI 最终还是要转化为对认知和反应的处理。因为 AI 的行为(action)不仅仅是感知到某个物体的存在,还需要做出相应的行动。在这个过程中,空间感知的效率并不高,他认为语言的抽象能力带来的感知效率更高,语言的抽象能力是效率最高的。

王维嘉:我完全同意这一点。我们可以这样思考,语言是如何起源的。我的个人猜测是,人类的意识和语言可能是同时起源的。人类与动物的根本区别是什么?马克思认为是使用工具,但乌鸦和大猩猩也会使用工具,所以使用工具并不是人类独有的技能。

语言才是人类与所有动物最大的区别,没有任何动物拥有语言,只有人类有,这才是人类的本质。从更广义的角度来说,除了语言,数学也是人类的发明,这些都是符号的应用、发明和定义,是人类的本质特征。正是因为人类拥有这种抽象能力,才能迅速跃居食物链顶端,其他动物无法做到。

我认为,仅依靠三维空间模型来完成所有任务是不可能的,必须同时具备语言模型和空间模型。如果我不做机器人,不与物理空间打交道,那么大语言模型就足够了。我可以是多模态的,有视频、图像、声音等,这些符号就足够了。但如果我要与物理空间打交道,就需要结合大语言模型和空间模型。因为仅仅知道床在哪里、门在哪里是不够的,还需要知道该做什么。

所以,我认为语言模型和空间模型两者都需要,才能更好地完成任务。在这一点上,我同意Geoffrey Hinton的观点,两者都不可或缺。

赵何娟:我觉得您现在的观点和两年前相比有了一点变化。您还记得我们两年前的那次对话吗?当时您认为涌现是存在的,当神经元复杂到一定程度、算力达到一定程度时,情感或意识会自然出现。这是一种涌现现象。

王维嘉:我现在仍然认为涌现是有可能出现的,但至少在目前的 Transformer 结构下,我认为不可能出现涌现。

未来如果有新的结构,我认为出现涌现是有可能的。如果有新的涌现,更高级的智能甚至情感的出现也都有可能。但就目前的结构而言,我看不到任何可能性。至于未来,我觉得这个问题的讨论意义不大,因为未来100年什么都可能发生,谁也无法预知。

赵何娟:您有没有关注到一些优秀的 AI 人才的动态?

王维嘉:我觉得这次扎克伯格的事件非常值得关注。大家讨论的焦点是两亿美金还是十亿美金挖一个人,但我看到的是一个更深刻的问题。

过去我一直说,在高科技领域,一万个臭皮匠也顶不了一个诸葛亮。具体来说,清华大学的钱颖一教授曾发表过一篇论文,比较了美国和中国的人才。如果将人才分布看作高斯曲线,中国人才的均值更高,但方差很小,分布非常窄,集中在均值附近;而美国人才的均值相对较低,但方差很大。

未来均值附近的人才会被AI替代,均值附近的数据训练最多。而高斯分布两端的人,低端的不需要替代,高端的最难替代。未来最有用的人才是那些差异化最大的人。扎克伯格支付高薪的,正是那些在高斯分布五个标准差、十个标准差之外的极少数人,这些人做出的贡献是机器无法替代的。比如调参数、打榜这类事情,完全可以用机器替代。将来,工程性的工作,如调整模型以提高效率等,会越来越多地被机器替代。

扎克伯格的这件事预示着未来人才分布的趋势。他肯定算过账,知道付两亿美金招一个人,将来会赚回更多的钱。他作为一个商人,才会这样做。这是第一点。

第二点,最近有一家公司叫 Surge,它的业务是用数据训练大模型。这个创始人是一位华裔年轻人,毕业于 MIT,曾在 Meta 和谷歌工作过。他创业四年,从零做到十亿美金收入,一分钱融资都不需要。

他说:“I hate VC game”,他不喜欢那种融资游戏。他是个很内敛的人,只喜欢搞算法,不想去忽悠钱,也不做市场推广,只想把产品做好。我觉得这是一个非常强烈的信号,可能会颠覆整个VC行业。因为现在AI能力非常强,如果一个人在大厂工作过五到十年,有一定积蓄,他不需要很多钱就可以创业。未来VC追着人投钱,但对方可能不要。这种模式可能会被颠覆。

AI的这两件事非常值得关注,虽然只是两个数据点,还不能画出一条曲线,但我认为这是非常重要的信号,未来VC的模式可能会消失。

赵何娟:还有吗?

王维嘉:我比较看好那些 AI 原生的创业项目。比如我看过一家公司,他们的目标是废掉数据库。数据库本质上是因为计算机太笨,才需要告诉它数据结构是怎样的,如何存储和提取数据。如果 AI 足够聪明,就不需要数据库了。数据库的概念是建立在机器很笨的基础上的。当机器变得聪明时,就不需要数据库了。

我看好这些原生应用,因为如果你去做 AI 赋能,你是做不过大公司的。大公司在原来的基础上修修补补,你肯定竞争不过。所以创业一定要做原生的东西。

赵何娟:未来一到三年内可能发生的最大变化,以及最值得关注的可能发生的变化是什么?这可以是一种预测,但也可以只是一种判断。

王维嘉:我认为,首先在应用层面,可能会出现一些原生应用。到目前为止,我们看到的原生应用还比较少。至于什么是原生应用,我们目前并不清楚。就像移动互联网刚出现时,有人认为它无非是在手机上多了一个搜索条,可以在手机上浏览网站。但实际上,移动互联网真正的原生应用是像滴滴打车、抖音视频这样的产品。目前,原生应用尚未出现,但我认为未来一两年内可能会出现。

第二点,我认为 agent(智能代理)应该会开始逐渐成熟。目前,agent 的能力在各方面都已具备,但很多环节还无法打通。就像早期的智能手机,各方面都受到限制。未来,谁能最先将这些环节打通,实现一个完整的 agent,哪怕是很简单的功能,比如点外卖或在网上购物,我认为这将具有巨大的经济价值和市场颠覆性,甚至可能改变很多现有的商业模式和就业结构。

在技术层面,我认为芯片的处理速度在未来可能不会再像过去那样快速提升。过去两年,芯片速度可能提升了100倍甚至1000倍,但未来这种增长速度可能会放缓。至于算法上是否会有创新,目前还很难说,完全无法确定。

赵何娟:因为时间关系,今天的对话就到这里。谢谢维嘉老师,非常精彩,期待下次继续探讨。

王维嘉:谢谢何娟,再见。

(作者|郭虹妘,编辑|陶天宇)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问

相关内容

热门资讯

振华科技:现有MLCC产品能应... 证券之星消息,振华科技(000733)12月25日在投资者关系平台上答复投资者关心的问题。 投资者提...
AI框架迈入超节点时代 国产技... 中新网北京12月26日电 (记者 刘育英)随着人工智能大模型向十万亿级参数、全模态融合、异构化训推方...
广西“AI超级联赛”:成果“落... 中新网南宁12月26日电 (陈秋霞)2025年广西AI赋能千行百业超级联赛(简称“A超”联赛)迎来收...
赵何娟对话王维嘉:AI没有系统... 12月20日,在钛媒体2025 T-EDGE全球对话中,钛媒体集团创始人、Barron‘s中国出版人...
AI不凡,海尔消金11年锚定数... 2014年,这一年的12月26日,海尔消费金融有限公司(以下简称“海尔消金”)在青岛正式开业,以产业...