Akash Systems正在进入AI基础设施聚光灯下,凭借不断增长的合作伙伴名单和早期部署,将其基于钻石的散热技术定位为突破行业最严峻约束之一——散热问题的工具。
该公司最近宣布,其钻石散热技术现已在AMD Instinct MI350系列GPU上商用,据报道获得了3亿美元的首发订单。与此同时,Akash表示其技术已在英伟达H200平台上部署,并计划在未来部署中支持下一代Blackwell系统。
这一势头正值数据中心运营商面临AI工作负载的巨大压力,这些负载正推动持续的高密度计算。机架功耗正突破100千瓦,随着推理工作负载开始占主导地位,未来部署预计将攀升得更高。
在这种背景下,Akash将其技术定位为散热堆栈中的新层——直接在芯片级别运行,并补充行业向液体和浸没式散热的更广泛转变。
至关重要的是,这种方法还可以延长现有基础设施的使用寿命。对于无法对设施进行液体散热改造的运营商来说,芯片级热管理改进提供了一条部署下一代GPU的路径,而无需大规模资本改造。
Akash的起源突显了该方法的持久性。该公司基于钻石的热技术最初是为太空应用开发的,与NASA和DARPA合作在极端环境中运行,然后适配到地面数据中心。
在这次问答中,Akash Systems联合创始人兼首席商务官Pamit Surana讨论了公司不断增长的合作伙伴关系、钻石在AI基础设施中的作用,以及为什么热管理正在成为主要设计挑战。
数据中心知识(DCK):您宣布了对AMD Instinct MI350和英伟达H200的支持,Blackwell即将到来。这说明Akash在AI生态系统中的位置如何?
Pamit Surana:这反映了整个生态系统都在广泛感受到热挑战。无论是AMD还是英伟达平台,功率密度都在快速增加。我们的目标是位于芯片级别,提供跨架构的解决方案。我们在多个GPU平台上参与的事实表明,这不是一个小众问题——这是一个行业范围的约束。
DCK:AI数据中心正将功率密度推向新的极端。Akash Systems在这一转变中如何定位?
PS:AI基础设施正在根本性地改变数据中心的热特性。我们现在看到的是在传统材料难以有效处理的水平上持续的高功率运行。我们的重点是在源头——直接在芯片级别——使用钻石去除热量,钻石的热导率明显高于传统材料。
DCK:您正在进入商业化阶段。目前什么在推动需求?
PS:需求来自多个方向。超大规模厂商正在推高密度,芯片制造商正在硅级别增加功率,运营商正遇到真正的功率和散热约束。与此同时,需要更快地部署基础设施。能够在不需要完全重新设计的情况下提高效率的解决方案正受到很多关注。
DCK:您将基于钻石的散热定位为突破性技术。与铜或铝相比,实际差异是什么?
PS:钻石是可用的最具热导性的材料——它的导热性大约是铜的五倍,而铜是目前的行业标准。这使我们能够显著降低GPU温度。在我们的部署中,我们在持续工作负载下看到了高达10°C的温度降低,这直接转化为更好的性能和效率。
DCK:在实际AI部署中,这种温差有多重要?
PS:这很关键。较低的温度意味着您可以在峰值性能下运行而不会降频,并且可以使用更少的能源做到这一点。这对性能和运营成本都有直接影响。在规模化时,这些收益很快就会复合。
DCK:钻石听起来仍然昂贵。是什么变化使其在规模化时变得可行?
PS:我们正在专门为热应用工程合成钻石。我们没有使用宝石级材料。这使我们能够在仍然提供性能优势的同时优化可制造性和成本。随着我们扩大生产规模,经济性继续改善。
DCK:您将此描述为散热堆栈中的新层。它如何与液体和空气散热配合?
PS:我们是互补的。液体散热在系统或机架级别处理热量。我们在源头去除热量,甚至在它到达那些系统之前。当您结合两种方法时,可以显著提高整体效率。
DCK:有大量风冷数据中心的存量基础。Akash如何适应这一现实?
PS:这是一个关键机会。不是每个设施都能轻易过渡到液体散热。我们的技术允许运营商升级到下一代GPU,同时保持在现有基础设施约束内。这是在不进行大量资本投资的情况下延长这些数据中心寿命和能力的方法。
DCK:您之前提到了太空技术的根源——这如何塑造了这项技术?
PS:我们与NASA和DARPA的合作要求我们在一些最极端的环境中解决热挑战。这推动我们开发高效、耐用的解决方案。一旦我们看到了机会的规模,将该技术引入数据中心就是自然的进展。
DCK:随着功率约束成为全球瓶颈,这能释放多少效率?
PS:更好的热管理直接转化为更好的能源效率。如果您能保持芯片更凉爽,就能减少散热所需的能源开销,提高整体系统性能。这在数据中心规模上有着有意义的影响。
DCK:如果推理超越训练,这如何重塑散热要求?
PS:这将一切转向持续效率。不是优化峰值突发,您需要能够在高利用率下连续运行的系统。这就是一致的热性能变得关键的地方。
DCK:我们是否正在走向热管理变得与计算本身一样关键的世界?
PS:在很多方面,我们已经到了那里。计算性能越来越受到您能多有效地管理热量的约束。
DCK:用一句话说,AI时代数据中心散热的未来是什么?
PS:散热将更接近芯片,并成为下一代计算的基本推动因素。
从太空技术到AI工厂
Akash的进展突显了行业热管理方法的更广泛转变。曾经是设施级关注点的问题现在正转向硅、封装和材料科学。随着AI基础设施的扩展,芯片级别的增量收益可以在整个堆栈中释放巨大的改进。
Akash与AMD和英伟达的合作伙伴关系——以及其在现有风冷环境中运行的能力——使其在平衡快速创新与实际部署约束的市场中具有独特地位。
如果该公司能够扩大制造规模以满足超大规模需求,基于钻石的散热可能成为下一代AI基础设施的关键组件,特别是当运营商寻求在有限功率资源内最大化性能时。
Q&A
Q1:Akash Systems的钻石散热技术有什么优势?
A:钻石是最具热导性的材料,其热导率约为铜的五倍。Akash的技术能在持续工作负载下将GPU温度降低高达10°C,直接转化为更好的性能和效率,同时使用更少的能源。
Q2:钻石散热技术成本会不会太高无法规模化?
A:Akash使用专门为热应用工程的合成钻石,而非宝石级材料,这使他们能够在保持性能优势的同时优化可制造性和成本。随着生产规模扩大,经济性持续改善。
Q3:钻石散热技术如何与现有的液体和空气散热系统配合?
A:钻石散热技术与现有系统是互补关系。液体散热在系统或机架级别处理热量,而钻石技术在源头——芯片级别直接去除热量。结合使用时可以显著提高整体散热效率。