如果说 2011 年马克·安德森(Marc Andreessen)那篇著名的宣言宣告了“软件吞噬世界”,那么十四年后的今天,a16z 前合伙人、著名科技分析师本尼迪克特·埃文斯(Benedict Evans)则以一份题为《AI 吞噬全世界》(AI Eats the World)的重磅报告,为这个新时代写下了注脚。
图丨本尼迪克特·埃文斯(来源:Benedict Evans)
自 2024 年末起,Evans 开始以每半年一次的频率发布同名报告,深入剖析科技行业的宏观格局与战略走向。近日,该系列的第三份报告正式发布。这份长达九十页的深度研究,试图在生成式人工智能(Generative AI)引发的狂热与质疑之间,抽丝剥茧,梳理出这场技术革命的真实脉络。
(来源:Benedict Evans)
报告关键点如下:
• 平台转移再现:生成式 AI 正在引发科技产业每 10-15 年一次的平台转移,但具体形态仍不明朗。
• 史无前例的投资狂潮:2025 年微软、AWS、谷歌、Meta 四家公司资本支出预计达 4000 亿美元,年内几乎翻番,超过全球电信业 3000 亿美元的年度投资。
• 模型性能趋同:顶级大语言模型在基准测试上的差距缩小至个位数百分比,模型可能正在成为商品,护城河和价值捕获方式尚不清晰。
• 用户参与度困境:ChatGPT 声称拥有 8 亿周活跃用户,但多项调查显示仅约 10% 的美国用户每日使用 AI 聊天机器人,大多数人仍处于偶尔尝试阶段。
• 企业部署缓慢:约 40% 的 CIO 表示至少要到 2026 年才会部署 LLM 项目,目前成功用例主要集中在编程辅助、营销和客户支持等“吸收”阶段。
• 推荐系统革命:AI 可能将推荐从基于相关性转向理解用户意图,万亿美元级的广告市场面临重构。
• 历史的教训:报告引用 1956 年美国国会自动化报告和电梯操作员消失的案例,提醒当自动化成功时会变成基础设施而不再被称为“AI”。
又一次十五年之变
报告开篇便抛出一个核心论断:我们正在经历又一次平台转移。Evans 指出,科技产业大约每十到十五年就会经历一次这样的巨变,从大型主机到个人电脑,从万维网到智能手机,每一次转移都重塑了整个行业的格局。而生成式人工智能,可能正是这个十五年周期中的下一个主角。但问题在于,就像历史上每一次平台转移一样,我们现在对它将如何展开依然充满不确定性。
(来源:Benedict Evans)
回顾历史总能提供某种慰藉,也带来警示。报告用微软的案例说明了这种转移的残酷性:这家公司曾在个人电脑时代拥有接近百分之百的操作系统市场份额,但当重心转向智能手机时,微软几乎变得无关紧要。数据显示,微软操作系统在全球计算机销售中的份额,从二零一零年前后的高点急剧下滑,到二零二五年已降至不足百分之二十。
类似的,在个人电脑市场早期占据主导地位的苹果,也曾被 IBM 兼容机边缘化。更广泛地看,搜索领域不是第一家搜索引擎赢得了市场,社交网络也不是,智能手机同样如此。早期领导者往往会消失,这似乎是平台转移的铁律。
但三年过去,我们对这次转移的形态依然所知甚少。Evans 列举了互联网早期和移动互联网早期那些失败的想法:美国在线(AOL)、雅虎门户、Flash 插件、WAP 协议、J2ME 平台。那时候人们也不知道未来会是什么样子。如今轮到了生成式人工智能,各种可能性同样令人眼花缭乱:是浏览器形态?智能体(Agent)形态?语音交互?模型上下文协议(MCP,Model Context Protocol)?可穿戴设备?还是某种全新的用户界面范式?没有人真正知道答案。
四千亿美元的豪赌
然而不确定性并未阻止投资的狂潮。报告用大量数据描绘了科技巨头们的“FOMO”(Fear of Missing Out,害怕错过)心态如何驱动着史无前例的资本支出激增。二零二五年,仅微软、亚马逊云服务(AWS)、谷歌母公司 Alphabet 和 Meta 四家公司,预计资本支出就将达到约四千亿美元。作为对比,全球电信行业的年度资本支出大约为三千亿美元。更令人震惊的是,这一数字在二零二五年期间几乎翻了一番,原本在年初的预期约为两千亿美元,但到年底已飙升至接近四千亿。
(来源:Benedict Evans)
这些钱都流向了哪里?数据中心建设成为最重要的去处。根据美国人口普查局的数据,美国数据中心的建设价值(不包括服务器本身)已经超过了办公楼,这在历史上还是第一次。Evans 引用 Schneider Electric 在二零二五年二月的行业调查显示,电力供应已成为美国数据中心建设的首要制约因素,超过了芯片获取、光纤接入和土地供应。美国的电力需求增长率约为每年百分之二,而人工智能可能额外增加百分之一的需求,这在短期内很难快速建设。报告特别指出,这在中国不是问题,但在美国已成为重大瓶颈。
(来源:Benedict Evans)
Nvidia 成为这场狂欢的最大受益者之一。报告显示,Nvidia 的季度收入已从二零二三年初的不到一百亿美元,飙升至二零二五年的近六百亿美元,远超英特尔在鼎盛时期的表现。Evans 将其类比为试图打造“新一代 Sun Microsystems”,尽管中国和各大云服务商自研芯片的威胁正在逼近。但如今的 Nvdia 依旧需求爆棚,其代工伙伴台积电(TSMC,Taiwan Semiconductor Manufacturing Company)的产能扩张完全跟不上订单的增速。
这种投资狂热已经开始考验所有科技公司的资产负债表,也包括那些富可敌国的科技巨头们。报告详细分析了四大云服务商的自由现金流和资本支出趋势。自疫情以来,这些公司的现金流确实大幅增长,但资本支出的增速更快。更让人费解的是,资本租赁这种不直接体现为现金支出的融资方式占比越来越大。有分析师指出,Oracle 的云业务资本支出可能超过其收入的百分之百,这在传统商业逻辑中几乎难以理解。
(来源:Benedict Evans)
而那些没有巨额现金流的公司怎么办?OpenAI 就给大家打了个样,它在二零二五年十月宣布了一系列令人咋舌的基础设施承诺:超过三十吉瓦(GW,gigawatt,十亿瓦特)的产能,总投资一点四万亿美元,甚至提出每周新增一吉瓦产能的愿景,按每吉瓦两百亿美元计算,年投资额将达到一万亿美元,相当于每年建设当前全球数据中心总容量的三分之二。这些数字如此巨大,以至于让人怀疑其可行性。
OpenAI 的策略是与 Nvidia、Oracle、软银和中东石油资金等合作伙伴建立复杂的融资结构,也就是我们所说的“循环收入”(circular revenue):OpenAI 用 Nvidia 的现金流购买 Nvidia 的芯片,而 Nvidia 的现金流来自微软、谷歌等云服务商,这些云服务商又是 OpenAI 的竞争对手和合作伙伴。与此同时,OpenAI 还在用这些资金将 AMD 培养成 Nvidia 的竞争对手,并支付 Broadcom 设计自己的定制芯片。这种复杂的资本流动模式不仅让许多人想起互联网泡沫时期的某些特征。
趋同的模型,分化的用户
那么,三年和数千亿美元之后,我们得到了什么?报告指出,在模型层面确实取得了显著进展:每周都有新模型发布,性能不断提升,中国和开源社区快速追赶。但同时也出现了一些令人困惑的趋势。基准测试已经饱和,存在针对测试优化甚至作弊的问题,而顶级模型之间的差距越来越小。根据 ArtificialAnalysis 和 LMArena 等第三方评测平台的数据,到二零二五年十月,Anthropic 的 Claude、谷歌的 Gemini、OpenAI 的 GPT 系列以及一些中国和西方的其他模型,在通用基准测试上的得分已经非常接近,差距往往在百分之几以内。
(来源:Benedict Evans)
这引发了一个根本性问题:如果模型性能趋同,护城河在哪里?Evans 认为,目前看不到明显的网络效应或技术壁垒。模型本身可能正在成为商品,就像云计算中的计算资源一样。那么价值将在哪里被捕获?是最好的模型、最多的资本、专有的垂直数据、分销渠道、产品体验,还是用户界面设计?
从用户数据来看,情况更加复杂。OpenAI 宣称 ChatGPT 拥有八亿周活跃用户(WAU,Weekly Active Users),这是一个非常惊人的数字。但报告指出,据估计只有约百分之五的用户付费,而且 OpenAI 选择公布周活跃而非日活跃用户数据,这本身可能也说明了什么。路透社新闻研究所(Reuters Institute)二零二五年六月的调查显示,在美国,ChatGPT 的周活跃用户占总人口约百分之二十二,谷歌 Gemini 约百分之十五,Meta AI 约百分之十一,微软 Copilot 约百分之八。但更深入的数据揭示了一个关键问题:使用频率。
德勤(Deloitte)在二零二五年六月对美国和英国消费者的调查发现,虽然尝试过生成式人工智能聊天机器人的人数在增长,但每日使用者的比例增长缓慢。在美国,约百分之十的人每天使用,百分之十八的人每周使用,而超过一半的人每月使用频率更低或根本不使用。这种模式在多个独立调查中重复出现:许多人尝试了这项技术,但将其融入日常工作流程的人仍是少数。
(来源:Benedict Evans)
Evans 提出了一个发人深省的问题:为什么大多数 ChatGPT 用户只是偶尔使用?他提供了三个可能的解释。首先,有多少用例真正是显而易见且容易适配的?其次,谁的工作足够灵活,能够有意识地寻找优化机会?程序员、营销人员、作家可能属于这一类,但对于大多数有固定工作流程的人来说呢?第三,对于其他所有人来说,是否需要将这种能力包装成更具体的工具和产品,而不是一个通用的聊天框?
他引用史蒂夫·乔布斯的话:“人们不知道自己想要什么,直到你展示给他们看”,以及“你必须从体验开始,然后回溯到技术”。
从试点到落地的漫长之路
在企业层面,采用情况呈现出不同的图景。报告指出,到目前为止,最成功的用例集中在几个明显的领域:编程辅助、营销内容生成、客户支持和流程自动化。AI 编程工具被誉为“新的 AWS”——就像亚马逊云服务通过基础设施即服务降低了软件创建的成本,AI 编程助手通过“氛围编程”(vibe coding)这种新的抽象层,再次大幅降低了软件开发的门槛。Y Combinator 孵化器 CEO Garry Tan 在二零二五年三月表示,当前 YC 创业公司中约百分之九十五的代码由 AI 编写,这意味着“创始人不再需要五十或一百名工程师的团队,也不需要筹集那么多资金”。
咨询和软件服务公司成为企业 AI 部署的重要推手。埃森哲(Accenture)报告的新生成式 AI 合同金额从二零二三年二月的几乎为零,增长到二零二五年八月的超过十八亿美元。Palantir 这家曾经神秘的数据分析公司,其企业部门收入在二零二五年达到了前所未有的增长,部分归因于其 AI 平台产品。但 McKinsey 在二零二五年的调查显示,在已经使用生成式 AI 的企业中,按业务功能划分,真正“已部署”的比例普遍低于百分之五,大多数仍处于“试点”或“实验”阶段。
(来源:Benedict Evans)
摩根士丹利(Morgan Stanley)二零二五年九月对首席信息官(CIO,Chief Information Officer)的调查显示:约四分之一的受访者表示已经部署了至少一个大语言模型(LLM,Large Language Model)项目,另有四分之一计划在二零二五年下半年部署,但接近百分之四十的人表示至少要到二零二六年才会有计划,或者根本没有计划。Evans 将这与云计算的采用轨迹进行对比:根据高盛的 CIO 调查数据,虽然云计算已经“古老而无聊”,但截至二零二五年,企业工作负载中仍然只有约百分之三十运行在公有云上。技术变革总是需要时间的。
(来源:Benedict Evans)
那么部署缓慢的原因是什么?报告指出,这些挑战听起来更像是关于 CTO(Chief Technology Officer,首席技术官)的问题,而不是 AI 特有的问题:安全性、隐私、知识产权、错误率、法律风险、数据集成、遗留系统兼容性,以及找到合适的解决方案匹配合适的人群。换句话说,这是部署任何新技术时都会遇到的典型障碍。但有一个 AI 特有的问题值得关注:如何处理“错误”?
大语言模型会产生事实性错误、幻觉和不可预测的输出,这似乎是这项技术固有的特征。报告提出了一系列问题:错误是否重要?能否自动化验证?人工验证是否高效?需要在 LLM 外面包装多少传统软件?这些问题将决定哪些应用场景真正可行。有些场景对准确性要求不高,比如创意头脑风暴或初稿生成。有些可以通过技术手段验证,比如代码可以运行测试。但很多场景需要人工审核,这就限制了自动化的价值。
Evans 引用了十九世纪经济学家威廉·斯坦利·杰文斯(William Stanley Jevons)的悖论来思考这个问题:技术进步提高效率后,总消费往往不降反升。应用到 AI 上就是:你会用更少的人做同样的工作,还是用同样的人做更多的工作?如果雇佣大量人员曾是你的护城河,那现在会发生什么?当你不再需要数百万人来完成某项任务时,什么变得可能?
他用英国蒸汽机的历史数据做了一个类比:到一九零零年,蒸汽机提供的劳动力相当于英国总人口的大约五倍。这种“杰文斯悖论”在工业革命中充分显现——更高效的动力并没有减少工作,而是创造了全新的产业和就业机会。那么,当我们拥有“无限实习生”时会发生什么?
重新定义推荐与选择
在消费者应用方面,报告重点分析了广告和推荐系统这个潜在的巨大市场。根据 WPP Media 和各公司数据,全球广告收入在二零二四年约为一万亿美元,其中谷歌搜索占约两千亿,Meta 约四千亿,亚马逊约五百亿。品牌每年花费数千亿美元与消费者对话,还有租金、物流、营销和退货等成本。这是一个巨大的价值捕获机会。
(来源:Benedict Evans)
目前 AI 在广告领域的应用主要集中在资产创建自动化。报告引用联合利华、欧莱雅和亿滋国际等公司的案例,显示生成式 AI 工具可以将广告资产创建效率提高十到二十倍,成本降低百分之三十到五十,并使视频广告对更多广告主来说变得经济可行。谷歌和 Meta 都在二零二五年第二季度财报中强调,他们的 AI 推荐模型带来了百分之几到十几的转化率提升。全球广告资产创建成本约为一千亿美元,现在可以生成多十到二十倍的资产变体。
但更深层的变革可能在于推荐系统本身。Evans 指出,今天所有的推荐系统都通过驱动、捕获和分析用户活动来工作——我们都是机械土耳其人(Mechanical Turks,指 Amazon 的众包平台),在为算法提供训练数据,网络效应成为护城河。那么大语言模型能否做得更好?能否在不需要庞大用户基础的情况下实现推荐?
想象一下这样的场景:你买了包装胶带,传统的关联推荐可能建议你购买纸箱和气泡膜。但如果系统真正理解这些商品代表什么,它可能推断你在搬家,进而推荐灯泡、烟雾报警器,甚至家庭保险广告。这从基于相关性的推荐转向了对用户意图和情境的理解。报告提出,三十年来我们拥有无限的商品、无限的媒体和无限的零售渠道,现在我们有了一台能看到所有这些、也能看到我们的机器。它会推荐什么?
这引出了一个根本性的价值拆分问题:当你搜索或购物时,你真正想要什么?你在乎来源吗?是要解决问题的工具化需求,还是寻求策展和体验的享受?物流、数据、答案可能变成纯粹的效用,而体验、策展、乐趣和真实性成为另一个维度。Evans 用东京 Morioka Shoten 书店说明这一点——一家每周只展示一本书的书店,代表了与亚马逊完全不同的价值主张。
在这种背景下,我们再来回看 OpenAI 的策略困境。这家公司似乎对所有可能性都回答“是”:与 Oracle、Nvidia、Intel、Broadcom、AMD 的基础设施交易,电商整合和广告业务,应用平台和社交视频,网页浏览器,机器人,甚至与 Jony Ive 合作开发硬件,以及生物技术投资。Evans 引用 Jim Barksdale 的名言:“赚钱的方式只有两种:要么捆绑,要么拆分。”OpenAI 似乎在同时尝试两者:既拆分用例(浏览器、视频工具等),也在捆绑能力(把所有这些都整合到 ChatGPT 品牌下)。
但问题是:为什么?如果 ChatGPT 应用已经有八亿周活跃用户,为什么还需要浏览器、社交视频和所有这些?为什么不直接用 ChatGPT 应用就行了?这是因为公司还没有找到最佳的产品形态和分销渠道吗?还是因为模型本身正在变成商品,所以必须向上下游延伸来捕获价值?
这种不确定性也反映在创业生态中。Y Combinator 的数据显示,二零二四年冬季和二零二五年夏季批次中,AI 初创公司的比例大幅上升,接近或超过总数的一半。这些创业公司存在的理由就是拆分用例——尝试为特定问题提供比通用 ChatBot 更好的解决方案,即使底层模型可能趋同。他们在押注产品、用户体验、垂直数据、分销和市场推广能力,而不仅仅是技术本身。
然而消费者行为数据显示,这种拆分还处于早期阶段。Bain 在二零二五年九月的调查显示,虽然年轻群体使用生成式 AI 的比例更高,但总体而言,绝大多数人仍然主要或总是使用传统搜索引擎,而不是 AI 聊天机器人。这包括使用 Google Gemini 的人,其本身就集成在 Chrome 浏览器中,但用户仍然更倾向于传统搜索框。这是早期阶段的正常现象,还是说明了更深层的问题?
(来源:Benedict Evans)
自动化的宿命与 AI 的未来
Evans 提醒我们,技术转型总是充满了过早的悲观。他展示了一九九七年《连线》(Wired)杂志“网络已死”的封面,以及二零二五年 NPR 报道的“出版商面临来自谷歌 AI 搜索的灭绝级威胁”。事实上,网络从一九九七年就开始“死亡”了,但今天它仍然是我们生活的核心。同样,出版业也一直在“死亡”,但也一直在适应和演变。技术变革从来不是简单的替代,而是复杂的重构。
(来源:Benedict Evans)
那么,我们该如何看待这一切?报告的最后部分提供了历史视角。一九五六年,美国国会发布了一份关于“自动化和技术变革”的报告,这份报告讨论了什么?
“在听证会过程中,小组委员会具体考虑了金属加工、化学、电子、运输和通信行业的六种不同工业情况,以及数据处理和办公室工作。选择这些行业只是为了说明自动化趋势中可能面临的问题类型。当然,还有许多其他行业如果时间允许也值得研究并能带来收益。这些特定行业的选择,不应掩盖其他领域快速发展的技术这一事实。仅举几例:罐头和装瓶行业、石油精炼、商业银行文书处理、基础钢铁行业、预拌混凝土的使用、煤矿开采、现代摩天大楼中电子控制电梯的使用,以及许多其他。”
听起来很耳熟,对吧?Evans 指出,人们在一九五六年讨论的“自动化”,听起来和我们今天讨论的 AI 非常相似。
美国人口普查局的数据显示,电梯操作员的数量在 Otis 公司一九五零年推出“Autotronic”自动电梯后,从一九五零年的约九万五千人高峰,下降到一九九零年的不到一万人。
(来源:Benedict Evans)
同时,自动化也创造了新的可能性。报告展示了美国超市平均 SKU(Stock Keeping Unit,库存单位)数量的历史数据:一九五零年约为五千种,但在一九七四年条形码和数据库系统引入后,到二零零五年激增至五万种。“自动化”本身就是一件大事,它让零售商能够管理五倍的商品种类,创造了全新的零售业态。
这引出了报告的核心问题:这是一个给 CIO、CMO(Chief Marketing Officer,首席营销官)、CEO(Chief Executive Officer,首席执行官)的问题,还是给 Accenture、Publicis、Bain/BCG/McKinsey 的问题?换句话说,这是新工具还是新产业?答案可能是两者都是,这取决于我们如何部署这项技术。
Evans 将技术部署分为三个层次:吸收(自动化明显的用例,将其作为功能集成)、创新(新产品、捆绑和拆分)、颠覆(重新定义问题)。到目前为止,大多数成功的用例仍在“吸收”阶段——编程、营销、客户支持、自动化。这些领域将继续有二十年的部署时间。但真正的问题在于:“创新”和“颠覆”会是什么样子?
在“创新”层面,问题在于:LLM 自动化能拆分什么?我们没有意识到哪些东西实际上是捆绑的?互联网通过拆分实体资产创造了在线分销,那么 LLM 能拆分什么?互联网创造了新的聚合者,LLM 如何能做得更好?报告认为,答案可能在于从相关性推荐转向意图理解,从捕获用户数据转向理解用户需求。
在“颠覆”层面,问题更加根本:什么会变得可能,当我们不再需要数百万人来完成某项任务?就像蒸汽机不仅取代了人力和畜力,更创造了全新的工业和城市形态,AI 可能也会重新定义某些行业的根本问题。但这需要时间,也需要正确的问题。
现在,我们处在一个奇特的时刻:一方面,科技巨头正在进行人类历史上最大规模的资本支出竞赛之一,其规模可与成熟的全球资本密集型产业相媲美。另一方面,产品形态、商业模式和价值捕获方式仍然模糊不清。模型可能正在成为商品,但终端用户体验还远未确定。企业部署正在进行,但速度缓慢且谨慎。消费者在尝试,但还没有将其变成日常习惯。
这是泡沫吗?Evans 对此持谨慎态度。他引用了 Carmen M. Reinhart 和 Kenneth S. Rogoff 的著作《这次不一样:八百年金融荒诞史》(This Time Is Different: Eight Centuries of Financial Folly)的封面。每个泡沫都是不同的,人们总是说“这次不一样”,而且他们通常是对的——每个泡沫确实都不一样,但它仍然可能是泡沫。重要的是,即使泡沫破裂,变革也已经发生。互联网泡沫留下了光纤基础设施和新的商业模式。这次会留下什么?
报告结尾处,Evans 引用了一九七零年计算机科学家 Larry Tesler 的名言:“AI 就是机器还不能做的任何事情。”这个定义的美妙之处在于,它永远是真的:一旦某件事情被自动化,我们就不再称它为 AI,而是称之为“软件”或“系统”。电梯不再需要操作员,我们不会说这是 AI,我们只是说这是电梯。搜索引擎使用复杂的算法,但我们不称之为 AI,我们称之为搜索。
那么当生成式 AI 成功时,我们会称它为什么?也许只是“软件”。也许是“助手”。也许是我们还没有想到的名字。但无论如何,世界将会改变。问题不是 AI 是否会“吞噬世界”,而是它会以什么方式、在多长时间内、留下什么样的世界。
参考资料:
https://www.ben-evans.com/presentations
运营/排版:何晨龙