万卡集群的AI数据中心,到底是如何运作的?

万卡集群的AI数据中心,到底是如何运作的?

在2024年7月22日凌晨,人工智能(AI)领域的先驱Elon Musk宣布,世界上最强大的AI训练集群正式投入使用。这个位于美国田纳西州孟菲斯市的训练集群,集合了10万个液冷H100芯片,标志着AI数据中心时代的新篇章。

不同于传统的CPU,现代数据中心开始越来越多地使用GPU,这给基础设施带来了巨大的挑战,包括散热能力、高效能源供应、占地面积以及快速部署等。

冷却系统:水与电的博弈

随着计算密度的不断提升,高效的散热系统变得至关重要。液冷方案凭借其优异的散热性能成为业内主流。然而,液冷系统对水资源的消耗却引发了环保人士的担忧。

为了减少用水量,数据中心开始探索新的冷却技术,如海缆冷却和自然冷。海缆冷却通过将服务器放置在海水中的外壳内,利用海水温度进行散热。而自然冷则通过利用室外的冷源,降低数据中心内部的温度。

供电系统:空间与效率的权衡

GPU的功耗远高于CPU,这给供电系统带来了巨大的压力。传统的数据中心供电系统占地面积大,阻碍了老旧数据中心向智算中心的升级。

为了解决空间问题,行业提出了设备一体化和提升电能传输效率的解决方案。设备一体化将多个供电设备集成到一个模块中,有效减少了占地面积。同时,采用碳化硅、多晶合金变压器和铜牌连接等技术,可以大幅提升电能传输效率,降低设备数量和能耗。

快速部署:预制化的崛起

不断增长的算力需求促使数据中心建设加速。为了缩短建设周期,预制化技术应运而生。木质数据中心、预制化冷却系统和供电设备的出现,将建设速度提高了40%~80%。

然而,预制化的挑战在于匹配不同客户的需求。通过建立统一平台,将模块化部件按需组装,能够满足差异化的需求,实现规模化部署。

基础设施:AI发展的基石

AI大模型的训练对基础设施提出了更高的要求。数据中心作为人工智能领域的幕后支撑,其技术进步对于AI产业的发展至关重要。未来,我们将会看到更多创新的解决方案,来支持AI大模型的训练与推理,推动人工智能的不断进步。

原创文章,作者:讯知在线,如若转载,请注明出处:http://bbs.xzxci.cn/2024/11/08/10601.shtml

Like (0)
讯知在线讯知在线
Previous 2024年11月8日 上午1:11
Next 2024年11月8日 上午1:20

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注