今年的Hot Chips 2025厂商依然大秀肌肉,其中最值得关注的,莫过于华为推出的UB-Mesh技术,该技术旨在通过单一协议统一AI数据中心内外部节点的所有互联,并用单一协议取代PCIe、CXL、NVLink和TCP/IP协议。
华为处理器部门海思半导体首席科学家廖恒表示:“下个月我们将召开一次会议,宣布UB-Mesh协议将像免费许可证一样向所有人开放。这是一项非常新的技术;我们看到不同阵营正在竞相推进标准化工作。根据我们在实际系统部署方面的成功程度以及合作伙伴和客户的需求,我们可以讨论将其转化为某种标准。”
随着UB-Mesh免费开放,NVLink的垄断地位是否会受到动摇?
华为的UB-Mesh,到底是啥?
事实上,华为的UB-Mesh早在今年三月底就已亮相。当时,华为发布了昇腾CloudMatrix 384超节点,采用UB互联完成了384颗NPU的互联。之所以采用UB互联,是因为诸如LLM训练等方面,要在NPU之间频繁交换数据,所以要有强大的NPU间通信能力。
而在本次Hot Chips上,华为透露了更多细节。根据华为的介绍,虽然用于训练和推理的 AI 数据中心应该像一个大型固有并行处理器一样运行,但它们由单独的机架、服务器、CPU、GPU、内存、SSD、NIC 、交换机和其他组件组成,这些组件使用不同的总线和协议相互联接,如UPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP和即将推出的超级以太网。协议转换需要电力,增加延迟和成本,并引入潜在的故障点,所有这些因素都可以在拥有数百万个处理器的千兆瓦级数据中心中进行灾难性扩展。
但是华为却不同,华为的思路则是“一统天下”,提出了UB-Mesh的统一框架,使任何端口无需转换即可与任何其他端口通信。这种简单性减少了转换延迟,简化了设计,并且仍然在需要时留出了通过以太网运行的空间,从本质上将整个数据中心转换为UB-Mesh 连接的相干超级节点。
华为将这种数据中心规模的AI架构定义为SuperNode,将多达1,000,000个处理器(CPU、GPU、NPU)、池内存、SSD、NIC和交换机统一到一个系统中,并将每芯片带宽从100 Gbps上升到10 Tbps(1.25 TB/s,超出了PCIe 8.0设置的范围),时延从微秒减少到~150 ns,整体设计从异步DMA转向同步加载/存储语义。允许灵活地重复使用所有高速SERDES连接,甚至支持通过以太网运行以实现向后兼容性。
当然,统一到单一的协议里,谈何容易,华为认为这会引发从铜缆(仍连接在机架内)到可插拔光链路的转变,不过光纤的错误率远高于电气连接。为了解决这个问题,华为提出了链路级重试机制、光模块内的备用通道以及将控制器连接到多个模块的交叉设计。
从拓扑上来看,UB-Mesh 采用混合网络拓扑结构。其顶层基于CLOS架构,用于连接整个数据中心大厅中的各个机架;而在每个机架内部,则通过多维网格网络互联数十个节点。这种混合设计旨在避免传统方案在系统规模扩展至数万甚至数十万个节点时,所面临的高昂成本问题。
成本方面,华为提供的数据显示,传统互联架构的成本往往随节点数量呈线性增长,甚至可能超过人工智能加速器(如NVIDIA H100或B200)本身的价格。而UB-Mesh以亚线性方式扩展成本,实现在增加容量的同时,不会同比增加开支。
为什么都想替代NVLink
英伟达的GPU之所以能够在数据中卖的那么好,其实不光是因为本身算力强大,更重要的便是其互联技术——NVLink和NVSwitch。
打个比方说,每个GPU都是单兵作战,但是用NVLink把GPU和GPU、GPU和CPU连在一起,就能发挥出更大的作用。过去,这种连接都是靠PCIe,就是我们家里主机那种一个一个插槽,而NVLink就是为了突破PCIe瓶颈而诞生的一种技术。
NVLink这种GPU和GPU互联或者NPU和NPU互联在业界有一种专业叫法——Scale Up(向上/垂直扩展),与之相对,还有Scale Out(横向/水平扩展)的概念。
Scale Up互联可以粗暴理解“芯片之间的互联”,是做更大芯片扩展的服务器,是内存和显存共享访问的语义,特点是极低延迟和大带宽,规模在柜内,可扩展为多柜到百芯片级,是独立Fabric连接,完全不同于以太网。Scale Up是超节点内部,采用GPU直出技术。
Scale Out互联是“服务器之间是基于网卡+交换机的集群互联”,可以简单粗暴理解成“卡之间的互联”,是以太网协议,规模在万级以上,普适的互联。它是在计算集群内部,利用外置网卡技术,通过横向扩展机柜的数目,实现到数万甚至数十万张卡的互联。
所以,NVLink的价值就在这里,传统PCIe总线在GPU间数据传输中已成为性能瓶颈。NVLink提供更高带宽和更低延迟,极大加速GPU间通信,这样GPU的性能才不会有任何浪费,尤其适合AI训练和科学计算。目前,NVLink已经发展到了第五代。
图源丨鲜枣课堂
当然,这还没有结束。英伟达还研究出了NVSwitch,它是专为NVLink网络设计的交换芯片,用于实现多GPU之间的高速互联。它允许多个GPU通过交换芯片直接通信,克服了早期NVLink只能在有限数量GPU间直连的限制。通过“NVLink + NVSwitch”的组合,实现了单机内多GPU的高效互联。
图源丨鲜枣课堂
虽然NVLink是真的强,但封闭是它的“原罪”,在一定程度上制约了技术的持续演进与效能优化潜力,等于是把客户完全“套牢”了。而且,过于垄断势必会降低自己产业链的韧性,厂商就会被绑死在英伟达这棵树上了。
因此,为了对抗摆脱现在这种状态,行业现在开始通过成立联盟,制定公开的协议标准,逐渐替代NVLink。
此时,所有人都开放了标准,英伟达说没压力是不可能的,所以在今年5月,英伟达宣布开放对NVLink协议和驱动该协议的物理传输(PHY)的访问。这意味着,第三方的CPU和GPU也能上NVLink了。
在生态逐渐发生转变的过程中,NVLink也在逐渐撕开口子,但竞争者目前正在一个接着一个地走上台前。
NVLink的挑战者,走上台前
挑战者一:UALink,一群供应商的联盟。
UALink是走得比较快的一种开放协议,AMD是其中核心的存在。
去年10月28日,AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟(Ultra Accelerator Link Consortium,简称UALink联盟),主推AI服务器Scale UP互连协议——UALink。而今,博通中途退出,开始大力推广自家的Scale-Up Ethernet(SUE)技术,新增AWS、Astera两家公司。目前,UALink联盟已公开邀请新成员加入,国内已有盛科、联想、澜起科技、联动等公司加入成为贡献者成员。
之所以提到AMD,是因为UALink的技术核心主要来自AMD。考虑到针对终态进行设计,以及共同对抗行业垄断的目的,AMD将其迭代多年的Infinity Fabric协议贡献出来,促成UALink联盟的成立,希望在更多行业伙伴的助力下,持续发挥原生为GPU互连场景设计的优势,使其成为行业的开放标准。
今年4月,UA Link 1.0标准正式发布。UALink 1.0规范定义了一种高速、低延迟的互连,支持每通道200 GT/s的最大双向数据速率,可配置为 x1、x2 或 x4,四通道链路在发射和接收方向上都能实现高达800 GT/s。一个 UALink 系统支持多达1024个加速器(GPU、NPU或其他),这些加速器通过UALink交换机连接,每个加速器分配一个端口和一个10位唯一标识符,用于精确路由。UALink电缆长度针对<4米进行了优化,可在64B/640B有效负载下实现<1 μs的往返延迟。这些链路支持跨一到四个机架的确定性性能。
UALink协议栈包括四个硬件优化层:物理层、数据链路层、事务层和协议层。物理层使用标准以太网组件(例如 200GBASE-KR1/CR1),并包括通过 FEC 减少延迟的修改;数据链路层将来自事务层的64字节flit打包为640字节单元,应用CRC和可选的重试逻辑,该层还处理设备间消息传递并支持UART风格的固件通信;事务层实现压缩寻址,简化数据传输,在实际工作负载下协议效率高达 95%,还支持直接内存作,例如加速器之间的读取、写入和原子事务,从而保持本地和远程内存空间之间的顺序。
UALink还集成多项数据中心级功能,包括硬件加密(UALinkSec)、多租户隔离、虚拟化分区,以及通过标准接口(如PCIe和以太网)进行统一管理。
相比封闭的专用方案,UALink 强调开放生态,由多家供应商共同推进设备和交换机的研发,更重要的是,UALink在加速器、交换芯片、Retimer等互连技术上保持中立立场,不偏向特定厂商,目标是建立开放创新的技术生态系统。
UALink预计首款产品将在12~18个月内推向市场。值得注意的是,在UALink 1.0标准诞生之前,新思科技就推出了UALink的IP解决方案。新思的UALink IP 解决方案将提供每通道高达200 Gbps的带宽和内存共享功能,以扩展(向上)加速器连接。
挑战者二:华为UB-Mesh,用单一协议解决一切。
刚刚提到的华为UB-Mesh即将在下个月宣布开源。华为的UB在业界一直被很看好。
通过华为此前的论文来看,UB-Mesh架构采用低基数交换机聚合四路接口,以无阻塞的方式管理跨机架连接。通过横向扩展2D的full mesh结构下的四个机架,形成4D层级互联。四个机架形成的pod总规模可达1024个NPU。
也就是说,在大规模集群中,UB-Mesh能够实现1024张NPU的全互联,这么来看,数量和上面的NVLink 1.0相当。不过,UB-Mesh还可以可通过super pod扩展至8000张NPU,这是一个非常惊人的数字。
不过,把计算、内存和网络资源进行动态池化与统一在一起访问,好是好,但是非常以来光技术,这可能引发出更多其他挑战。更多细节,可能需要华为之后的进一步披露。
挑战者三:博通的以太网方案SUE。
英伟达有NVLink和开放的NV,AMD走了UALink的路,博通想出了另一条路——以太网,也就是SUE。
博通认为这是对英伟达和AMD的一种还击,因为以太网的好处就是更开放。
根据博通的说法,SUE架构虽非由第三方组织制定的标准,但由于其基于以太网规范设计,能够与当前数据中心广泛采用的以太网交换机芯片生态系统兼容。“我们编写了规格书并公开发布在网络上,任何人都可以自由采用。市场上以太网交换机芯片供应商众多,SUE的开放规格可以说是实现了多方共赢。”而且,SUE对所有公司开放使用,无需像NVLink那样必须获得英伟达的授权。
今年6月,博通更新Scale Up Ethernet(SUE)规范。SUE在多XPU系统中提供XPU间的通信。每个SUE实例可配置为1、2 或4个端口,实现200G、400G、800G等多种速率,并可在全交换或网状拓扑中构建大规模XPU集群。
SUE提供了包括类AXI接口、通用命令/响应事务、多流量类别映射、数据包级可靠传输、严格/无序两种排序模式及负载均衡等功能,其协议栈支持操作打包、低延迟FEC、链路层重试(LLR)及多种流控机制(如PFC和CBFC)。通过采用优化报头格式(如AFH Gen 1/2)和标准以太网兼容封装,SUE在提升传输效率和降低延迟的同时,保持了与现有以太网生态的兼容性,形成一个开放、可扩展的互联解决方案。
总之,博通对SUE框架的优化是多维度的。以太网研究本身应用时间也长,继续沿用以太网无疑是非常具有吸引力的。所以,博通这个最初积极参与了UALink的开发工作的厂商,随着项目的推进,博通可能是突然发现以太网“尚能饭否”,所以对UALink的态度发生了转变。
挑战者四:PCIe说,再给我一次机会。
从NVLink到UALink再到SUE,可以说,PCIe是“万人嫌”,谁都嫌它不够快,瓶颈太多。PCIe SIG组织好像也急了,从2022年正式发布PCIe 6.0,到今天,急不可耐地直接启动了PCIe 8.0规范,把PCIe 8.0提上日程。
根据PCIe SIG的计划,2028年实现256 GT/s的速率和x16双向1 TB/s带宽。
此外,为了确保PCIe 8.0 互连的可靠性、可用的信噪比、一致的性能、可接受的信号损失、信号完整性和电源效率,PCI-SIG 现在正在审查一种新的互连技术,同时保持与上一代 PCIe 实现的向后兼容性。该规范还将引入协议增强功能以优化带宽使用,以及提高电源效率的方法。
PCIe 8.0强确实是强,但是的确是有点仓促了:目前市场上PCIe 6.0产品仍处于部署初期阶段,大多集中在数据中心级别硬件中,PCI-SIG计划在2025年上半年完成PCIe 7.0规范,并随后于2028年发布PCIe 8.0规范。按照时间来看,三年翻一倍速度也是PCIe的老传统了,但是真的要用到产业里,怎么也得2030年了。
不过PCIe本来就很重要,PCIe 8.0肯定是大势所趋了。
挑战者五:不同厂商的私有协议。
除了上述的开放协议和PCIe,一些厂商还在使用自己的私有协议。
AWS自己的AI芯片用自己的私有协议NeuronLink实现横向扩展,通过增加交换托盘提升整体互连能力。该方案的底层基于PCIe Gen协议构建,例如NeuronLink V3版本使用PCIe Gen5.0作为物理层,每个通道单向传输速率可达32Gbit/s,并通过多通道聚合实现高带宽通信。在具体部署中,亚马逊的Trn2-Ultra64超级服务器在机柜间采用AEC(有源光缆)进行连接,机柜内部则使用DAC(直接连接铜缆)。
谷歌方面,自己的TPU才采用自己的私有互连协议ICI,该协议具备高度可编程性,使软件能够灵活适应运行时的复杂需求,在机柜内部,组件之间通过DAC(直连铜缆)进行连接;而在机柜之间,则采用OCS(光电路交换机)实现高速光交换。
TPU v4的互联拓扑采用三维环面(3D Torus)结构,以4×4×4的方式将芯片组织成立方体形态。每个机架部署64颗TPU v4芯片和16台CPU主机,机柜内不同托盘间的TPU通过DAC互联。在此基础上,Google使用OCS光交换技术将64个这样的立方体连接在一起,最终构建出包含4096个TPU的TPU v4超级计算机系统。
战争的号角打响了
从UALink到博通的以太网的SUE到PCIe 8.0再到华为UB-Mesh,NVLink的竞争者越来越多,一个更为开放的生态正在建立。而对英伟达来说,这或许也不是什么坏消息,毕竟这种开放的生态英伟达也可以加入,而且英伟达本身也希望开放生态。只不过,可能以后就不会像私有协议那样具备垄断性了。
而对于国内的GPU和NPU的玩家来说,华为的UB-Mesh以及UB-Switch或许是另一种可行之路。