AI驱动下的数据中心转型案例和策略
在我们之前的讨论中,小智与大家一起深入探讨了传统数据中心向智算中心的改造与扩容之道,揭示了这一过程中的关键技术和费用情况。今天,我们将继续这一话题,进一步分享最新的转型案例和见解。随着技术的迅猛发展和业务需求的不断演进,了解这些转型策略不仅有助于我们把握行业脉动,更能确保在变革的浪潮中站稳脚跟。希望大家继续关注我们的分享,一起探索数据中心未来的无限可能。
人工智能的兴起,让数据中心变成了真正的“铁人三项”赛场 — 高功率、高效能,还要低延迟!想象一下,数据中心现在不仅仅是个存数据的仓库,更像是在进行一场马拉松式的高强度训练。
以前的数据中心设计,可能就像是配备了自行车的健身房。但现在,随着AI的加入,我们需要的是配备了最先进赛车的赛车场!例如,考虑到AI工作负载的增加,机柜功率密度必须更高。从传统的每机柜2-3kW的电力需求跳跃到超过20kW升至更高!这不只是升级,简直是变革!例如,谷歌的最新数据中心已经在使用高达30 kW的机柜来部署其AI处理器,以支持其搜索引擎和AI工具的庞大计算需求。
传统风冷系统?对不起,已经不够看了。液冷技术成了新宠。就拿施耐德电气的案例来说,他们将一个标准的风冷数据中心改造成了液冷技术的先锋,实现了高达30%的能效提升。在这种改造中,每个机柜从10kW的风冷升级到了液冷的20kW,就像从家用电扇升级到了中央空调系统。
再比如微软在其AI集群中引入了液冷技术,通过将服务器直接浸入非导电液体中,有效降低了温度,提高了能效。这种技术不仅大幅减少了能源消耗,还提高了处理速度。
高速网络是AI数据中心的血脉。以往的1GB/s的速度,在AI时代,可能要增加到100GB/s以上才能跟上数据传输的需求。这就像是把单车道升级为多车道高速公路,确保数据不堵车!
例如Facebook的新一代AI研究所采用了最新的100GB/s以太网技术,确保数据快速安全地在服务器间传输,从而支持复杂的AI模型训练。
标准机柜缺乏深度
针对人工智能工作负载进行优化的服务器,其深度可能会超过某些标准机柜的最大安装深度。即使较深的服务器可以安装到较浅的机柜中,也需要足够的后部空间来铺设网线,同时还要保证足够的气流。
指南:IT 机柜配有可调节的安装轨道,以适应不同 IT 设备深度,但最大安装深度各不相同。建议机柜至少 1200 mm (47.2 in),且最大安装深度大于 1000 mm (40 in)。
根据AI服务器的高度,常见的 42U 高机柜可能太矮,无法容纳所有服务器、交换机和其他设备。
例如,一个 64 端口的网络交换机意味着机柜将有 8 台服务器,每台服务器有 8 个 GPU。按照这样的密度,假设服务器高度为 5U,仅服务器就占用 40U,只剩余 2U 的空间来容纳其他设备。
指南:建议将人工智能训练集群部署在 48U 或更高的机柜上,前提是数据中心楼层高度能够容纳它们。1U 等于 44.45 mm (1.75 in)22。
如果使用重型人工智能服务器,高密度机柜的重量可能超过 900 kg (2000 lb)。这对 IT机柜和高架地板的静态和动态(滚动)承重能力都造成了巨大的负荷。不符合这些重量要求的机柜可能会出现框架、水平支脚和/或脚轮变形。此外,高架地板可能无法支撑这些重型机柜。
指南:IT 机柜的承重能力分为静态和动态两种。静态是指机柜静止时所能承受的重量。动态是指机柜移动时所能承受的重量。建议指定机柜的静态承重能力大于 1,800 kg (3,968 lb),动态承重能力大于 1,200 kg (2,646 lb)。
这些机柜的承重能力应由独立的第三方机构进行验证 23。即使当前的人工智能部署规模较小,尚不需要这些承重能力,机柜的使用寿命也往往比 IT 设备更长。下一代人工智能部署很可能需要部分或全部采纳这些机柜的建议。
最后,在某些情况下,IT 机柜先在异地进行预制,然后运往数据中心。这些机柜必须能够承受运输过程中产生的动载荷,相关包装也必须能够保护机柜及其支撑的贵重 IT 设备。
AI算力集群高功率导致设计的不确定性
在改造现有设施以容纳新的人工智能集群之前,需要进行可行性研究,以确认是否有足够的功率容量和制冷能力,以及将其分配给新负载所需的基础设施。
在机柜功率密度远低于 10kW 且供电和制冷能力过剩的典型情况下,增加标准 IT 可能相对容易,不需要过多的审查和验证。特定时间的配电和制冷测量可与常用配电组件和您熟悉的现有冷机组结合使用。手动量更大与“目测式””改造设计方法将不足以满足大型高密度人工智能训练集群。一个人工智能集群的耗电量高达数百千瓦,如果设计失误(如不知道实际峰均比、不确定哪些负载在哪些回路上等),后果将更为严重。
设计中的未知数和不确定性可能造成代价高昂的后果。此外,由于人工智能集群的设计极其独特(例如,非标准高安培 rPDU/母线、使用液冷等),因此集群在启动时的表现存在更大的不确定性。
指南:可以借鉴使用 EPMS 和 DCIM 来准确查看当前的配电能力及其趋势,包括 IT 空间内的大容量电力和配电级别。这些工具会显示长时间内的实际峰值功耗。
了解这一点非常重要,可确保断路器不会意外脱扣。这种能力评估有助于确定托管人工智能负载的能力。请注意,评估的前提是假定使用了必要的电表。
其次,在进行任何更改之前,建议进行安全和技术研究,包括容量分析、保护协调、弧闪研究以及短路和设备评估 24。使用电气设计(又称电力系统工程)软件工具可简化数据收集和计算工作。
标准宽度机柜缺乏安装空间
由于人工智能服务器深度越来越深,机柜背面安装 rPDU 和液冷分液器的空间越来越小。随着服务器功率密度的不断增加,在标准宽度机柜(即 600 毫米/24 英寸)的背面安装必要的配电和制冷分配装置将变得非常困难,甚至不可能。此外,狭窄的机柜很可能会因配电和网线而堵塞机柜背面的出风。
指南:建议至少采用 750 毫米(29.5 英寸)宽的机柜,以容纳 rPDU,如果采用液冷,还可以容纳用于液冷式服务器的分液器。虽然这些机柜不会像标准 600 毫米机柜那样与 600 mm 宽的高架穿孔地板对齐,但这不再是一个相关的限制因素。这是因为风冷人工智能服务器需要大量的气流,而高架地板通常不用于气流分配,而是用于管道铺设和布线。
Interstates公司也进行了类似的数据中心基础设施改造。这家位于爱荷华州的公司主要提供电气、建筑和工程解决方案。由于核心基础设施老化,Interstates面临着频繁升级数据中心硬件的挑战。
他们选择了Cisco的UCS X-Series服务器和Intersight操作平台,这使得他们能够简化和扩展计算基础设施。这种新的基础设施减少了服务器占用的空间超过50%,同时降低了能源和冷却需求。此外,通过自动化支持,Interstates能够比以前快75%地部署物理和虚拟机 (venturebeat)。
一个实际的数据中心改造案例涉及华为的数字能源解决方案。中国联通广州通过华为的数字化改造项目,实现了数据中心的节能和环保升级。通过这次改造,预计每年可节省电力约1324.5万千瓦时,并减少碳排放7695吨。

总的来说,随着AI技术的发展,数据中心也必须进行革命性的升级和改造。这不仅仅是技术的挑战,更是创新的机会。
让我们拭目以待,看看这些数据中心“铁人”将如何在AI的赛道上,一展身手!
感谢您的阅读
期待您的互动、反馈📝
让我们共同学习和探讨