通信世界网消息(CWW)传统的AI服务器通常包含8张算力卡,一台服务器即为一个节点。服务器内部的8张算力卡传输速度较快,但服务器与服务器之间的传输速度则慢得多。随着大模型浪潮的到来,行业巨头需要连接成千上万、乃至10万计的GPU算力卡,这使得互联和通信成为行业发展的一大难题。
正如华为计算产品线营销运作部部长张爱军在2026新春媒体沙龙上所分享的,当前大模型正从单模态走向全模态融合,模型上下文长度、训练数据规模持续提升,同时金融等场景对时延提出10毫秒以下的严苛要求,传统算力架构已难以适配。
系统工程破解算力互联困局
解决这一难题的关键,在于采用高速通信技术将更多算力卡融合成一个超节点。超节点内的所有算力卡可实现高速互联和通信,进而大幅提升算力集群的性能。
张爱军表示,真正的超节点必须同时具备大带宽、低时延和内存统一编址三大核心要素,若仅通过PCIe+RoCE协议互联,不支持内存统一编址,本质上仍是传统服务器堆叠,并非真正的超节点。
华为发布的昇腾384超节点,正是其计算技术突破的重要体现,该超节点以384张昇腾算力卡组成,是目前已商用的超节点中单体规模最大的产品。依托华为自研灵衢UnifiedBus互联协议,其打破了传统PCIe互联的带宽和时延瓶颈,通信带宽较传统服务器架构提升10倍,RTT通信时延从7微秒降至3微秒,降低50%以上,同时实现128TB全局内存统一编址,让384张算力卡如同一个逻辑上的单一设备协同工作,真正实现“计算不等待通信”。
这样的计算技术重构,背后涉及基础软件、计算、内存、通信、架构、调度、散热、供电、高速互联等多个领域的协同研发,每个领域都需要深厚的技术积累。
张爱军在媒体沙龙上表示,华为能实现这一突破,得益于过去几十年在通信、硬件工程和基础软件领域等多领域积淀。华为在光通信领域拥有全球领先的技术积累,能解决极高速通信中稳定性与传输距离的矛盾,同时将液冷散热、算力调度等技术融入超节点设计。
华为通过系统化创新,在协议、器件和工程层面实现了长期稳定运行,确保超节点满负载运行时的可靠性,进一步印证了其计算技术的硬实力。
从商用落地来看,华为昇腾384超节点(Atlas 900 A3 SuperPoD)自上市以来,已累计部署超过数百套,涵盖互联网、电信、制造等多个行业,让计算技术真正赋能产业发展。
构建开源生态,共建产业协同
算力平台的“能用”和“易用”分属两个不同维度的问题,而开源则是打通“易用”壁垒、让计算技术广泛落地的关键。
想要让先进的计算技术真正服务于开发者和产业,还需要华为在生态上提供更加全面的开源支持。
华为计算开源业务总经理李永乐在媒体沙龙上提到,全球许多AI开发者习惯使用PyTorch、TensorFlow框架,生态兼容性是计算技术落地的核心,而开源正是破解这一难题的重要路径。对此,华为早已提前布局应对,将开源作为核心战略,推动计算技术与开源生态深度融合。
李永乐详细介绍了开源生态构建的具体举措:昇腾的异构计算架构CANN从诞生之日起,就支持包括PyTorch、TensorFlow在内的主流开源框架,且已于2025年8月全面开源开放,开发者无需修改核心代码,就能将原有模型迁移至相关计算平台运行,大幅降低了开发者的适配成本。
同时,欧拉(openEuler)操作系统也已发布面向超节点的创新版本,成为业界首个开源的超节点操作系统,为计算技术的开源落地提供了全方位支撑。
截至2026年1月,华为已发展380万+鲲鹏开发者、400万+昇腾开发者,联合9800+ISV伙伴打造了超过2万个解决方案,形成了完善的开源生态体系,让计算技术通过开源实现更广泛的赋能。
值得注意的是,华为在计算技术突破的同时,并未将核心技术封闭起来,而是选择全面开源,与产业链伙伴共建协同生态。截至媒体沙龙召开时,灵衢协议已累计下载近24000份,华为还计划成立了灵衢社区,与产业链伙伴共建超节点生态,助力中国构建完整的超节点产业链,推动计算技术与开源生态双向赋能、共同发展。
华为在计算领域的技术突破和开源生态建设,破解了AI算力互联难题,为大模型发展提供了有力算力支撑。未来,华为将持续推进计算技术研发和开源生态完善,推动算力高效流动,以计算和开源赋能各行业数字化转型,实现双向共赢。