原本可选参加的例行亚马逊会议变得严肃起来,公司零售业务高管紧急召集工程师讨论一系列AI相关的系统故障。
据《金融时报》首先报道,虽然这次零售技术会议前的备忘录没有具体说明将讨论哪些事件,但亚马逊的工程师们有很多问题需要解决。仅在一周内,这家电商巨头就经历了四次事故,备忘录中将每次都描述为具有"高影响范围"。
据亚马逊发言人介绍,公司的"商店技术本周回顾"(TWiST)会议是每周例会,是"正常业务的一部分","特定的零售技术领导团队和小组......回顾我们团队商店的运营表现"。
这个定期会议在周二被改为深入讨论最近故障背后的原因。
看起来AI辅助的生产变更是罪魁祸首。
生成式AI辅助变更导致重大故障
据CNBC报道,亚马逊电商服务高级副总裁大卫·特雷德韦尔在给员工的备忘录中写道:"网站和相关基础设施的可用性最近表现不佳。"
基于现有证据,特雷德韦尔的表述可能还算保守。上周,亚马逊的网站和应用程序都面临严重故障;在长达六小时的时间里,客户无法结账、访问账户信息或查看产品价格。当时,亚马逊发布声明称问题与"软件代码部署"有关。
现在公司内部备忘录显示,最近的事故与"生成式AI辅助的变更"有关。特雷德韦尔的另一份备忘录显示,这些AI辅助的编码错误早在2025年第三季度就开始给亚马逊造成问题。
他指出,用于补充或加速生产变更的生成式AI工具"导致了不安全的做法",并提到使用生成式AI的"最佳实践和安全措施"尚未具体确定。
对于现有的安全措施,亚马逊计划"加强执行"。具体来说,将要求资深工程师审查初级员工准备的生成式AI辅助生产变更。
特雷德韦尔还宣布:"我们正在实施临时安全措施,这将为零售体验最重要部分的变更引入受控摩擦,同时我们将投资更持久的解决方案,包括确定性和智能体保护措施。"
基础设施投资与人员削减形成对比
亚马逊的AI辅助失误发生在资金似乎大量涌入基础设施建设、远离员工投入的时期。
与其他超大规模云服务提供商一样,亚马逊在基础设施支出方面投入巨大,其2026年2月的财报宣布预计今年将在资本支出上投资2000亿美元。与此同时,亚马逊仍在紧缩人员预算。自2022年以来,该公司已裁员数万名员工,最后一轮裁员发生在2026年1月,影响了16000名企业员工。
在网站和应用程序问题的同时,亚马逊的云计算部门也面临动荡。
2025年底出现了几次亚马逊云服务的故障。据《金融时报》报道,其中一次事故特别严重,导致成本管理功能宕机13小时——这是Kiro主导变更的严重副作用,Kiro是一个旨在帮助工程师自动化或加速代码变更的智能体集成开发环境。
亚马逊发言人表示,AWS故障与本月的网站和应用程序事故无关,但这延续了AI辅助错误的令人担忧趋势。
Q&A
Q1:亚马逊为什么要召开紧急工程师会议?
A:亚马逊在一周内经历了四次高影响范围的系统故障,这些故障都与生成式AI辅助的代码变更有关。公司零售业务高管紧急召集工程师深入讨论故障原因和解决方案。
Q2:生成式AI是如何导致亚马逊系统故障的?
A:生成式AI工具被用于补充或加速生产代码变更,但由于缺乏完善的最佳实践和安全措施,导致了不安全的编程做法,引发了网站和应用程序长达六小时的故障,用户无法正常购物和访问账户。
Q3:亚马逊计划如何解决AI辅助编程的安全问题?
A:亚马逊将要求资深工程师审查初级员工的生成式AI辅助代码变更,实施临时安全措施为关键系统变更引入受控摩擦,同时投资开发更持久的确定性和智能体保护解决方案。