跳至主要内容

什么是高密度机架?

高密度机架

高密度机架是专为数据中心设计的机柜,其设计旨在在单个机架占地面积内承载远超传统服务器机架的计算能力。这些机架专为容纳高性能服务器、针对图形处理单元(GPU)优化的系统、存储阵列以及网络设备而设计,这些设备对供电能力、先进散热和空间利用率优化有着更高的要求。

随着人工智能(AI)、机器学习(ML)、高性能计算(HPC)、云服务和 边缘计算等现代工作负载的复杂性持续增加,对每平方英尺更高计算密度的需求也急剧上升。高密度机架通过使企业能够将更多处理能力整合到更少的机架中,从而满足这一需求,在最大限度提升性能输出的同时,减少数据中心的整体占地面积。

与传统的服务器机架不同,高密度机架经过专门设计,能够支持显著更高的机架功率密度和热输出。这一特性使其在性能、效率和可扩展性至关重要的环境中不可或缺。

如今,什么才算作高密度?

机架功率密度通常以每机架千瓦为单位进行测量。传统的企业数据中心通常每机架功率在5至10千瓦之间,这一水平在无需进行重大架构调整的情况下,即可通过标准风冷和常规配电系统予以支持。

如今,高密度机架通常被定义为单机架功耗超过 20 千瓦的部署方案。在人工智能和 GPU 加速环境中,40 千瓦的密度已日益普遍,先进的 AI 训练集群单机架功耗甚至超过 80 千瓦,而某些专为 AI 设计的系统功耗更突破了 100 千瓦。在这些水平下,基础设施的要求发生了重大变化,进而影响了电气设计、数据中心冷却策略以及机架结构。

“高密度”的定义随着计算需求的演变而不断更新。曾经被视为高密度的水平,如今已成为GPU密集型系统和现代HPC集群的常态。随着处理器核心数量的增加和加速器的广泛应用,机架功率密度持续攀升,从而重新定义了数据中心基础设施的基本预期。

机架密度为何在增加

推动机架密度不断提升的主要驱动力是GPU加速。现代AI基础设施通常处理的工作负载依赖于并行处理架构,这种架构将强大的计算能力集中于单个系统之中。随着每台服务器集成更多GPU,以及每个机架部署更多服务器,整体功耗和热量输出也随之增加。

AI 模型的训练进一步加速了这一转变。大型语言模型和先进的分析平台需要集群计算节点持续以高利用率运行。为 AI 和 HPC 工作负载部署的高性能系统通常经过专门设计,能够持续运行,从而最大化计算输出并降低总体拥有成本。 

与许多可能随经济周期或不同时段的需求而波动的企业 IT 工作负载不同,人工智能训练和研究环境的设计初衷是保持持续高利用率。在经过优化的机架级架构中部署这些系统,不仅能提升性能并降低互连延迟,但也导致每机架功耗增加。

高性能计算工作负载也呈现出类似的趋势。科学仿真和工程应用需要高度集成、高吞吐量的环境。与此同时,工作负载整合和空间优化的压力促使企业将更强大的基础设施部署在更少的机架中,从而实现可扩展的增长,而无需相应地扩大数据中心的占地面积。

高密度机架中的供电注意事项

随着机架功率密度的提高,电力基础设施也必须相应地进行扩展。高密度机架通常需要更高电流的电路和三相供电配置,以满足持续负载的需求。例如,在高性能计算(HPC)研发环境中,电力规划必须同时考虑峰值需求和持续使用模式。

配电单元在管理高负载方面发挥着核心作用。智能配电单元(PDU)支持在机架或插座级别进行监控,有助于进行容量规划和跨电路的负载均衡。均衡的电力分配可降低局部过载的风险,并提高运行稳定性。

随着供电容量的增加,冗余规划变得越来越重要。N+1 或 2N 冗余模型有助于确保在组件发生故障时业务能够持续运行。还必须对上游基础设施(包括不间断电源和备用发电系统)进行评估,以满足数据中心日益增长的总用电需求。

冷却方面的挑战与解决方案

随着每机架功耗的增加,数据中心的制冷工作变得日益复杂。传统空气冷却方案可应对中等密度的情况,但在高功耗条件下,仅靠气流可能无法高效散热,从而无法防止热热点问题的发生。

遏制策略(包括热通道和冷通道遏制)有助于改善气流控制,并减少送风与排风的混合。后门换热器可在机架层面实现局部散热,从而在无需进行重大建筑结构改造的情况下提高冷却效率。

随着密度不断提升,直接液冷技术的重要性日益凸显。通过在热源处将处理器和加速器的热量导出,液冷方案能够降低热阻,实现更高效的散热。这些解决方案不仅支持高密度 GPU 系统的持续运行,还能提升数据中心的整体散热性能。当机架密度接近或超过 50 千瓦时,液冷技术已从可选的增强方案转变为核心基础设施的考量因素。

高密度机架的结构与设计要求

高密度机架必须能够承受因服务器满载、GPU加速器以及增强型供电和散热硬件而增加的设备重量。必须评估地板承重能力,以确保架空地板系统或楼板基础能够承受集中分布的重量。

随着网络带宽的增加和供电规模的扩大,线缆管理也变得更加复杂。结构化的布线以及电力与数据线缆的分离,既能提高可维护性,又能减少气流阻塞。

即使在液冷辅助环境下,气流管理仍然是一个关键的设计因素。合理的设备间距、封板以及内部气流通道有助于防止气流回流,并确保所有机架单元保持稳定的散热性能。

人工智能和高性能计算环境中的高密度机架

在人工智能和高性能计算(HPC)部署中,高密度机架是现代大规模计算的结构和电力骨干。GPU高密度系统需要协调的供电、高带宽互连以及先进的热管理,才能在持续负载下高效运行。

机架级架构将计算、网络和散热资源整合到统一的设计框架中。这种方法提高了部署的一致性,并在集群环境中支持可预测的性能。

热效率和能效与高密度数据中心基础设施的设计息息相关。通过协调机架功率密度、冷却策略和电气架构,企业既能保持高计算输出,又能有效控制运营成本。在此背景下,高密度机架不仅仅是机柜,更是支撑新一代人工智能和高性能计算环境的基础设施。

常见问题

  1. 在托管数据中心部署高密度机架有哪些优势?
    高密度机架通过提高每机架的计算能力,使企业能够最大限度地利用租赁空间。只要托管设施能够满足所需的供电和制冷水平,这就能提升空间利用率和性能。
  2. 高密度机架有哪些潜在的缺点?
    高密度机架需要大量的电力和先进的制冷基础设施。如果没有妥善规划,企业可能会面临更高的前期成本、更复杂的设计,以及现有电力和散热系统可能承受的压力。
  3. 高密度机架如何支持超大规模和超融合环境?
    高密度机架使超大规模数据中心能够高效地实现基础设施标准化和扩展。在超融合环境中,它们将计算、存储和网络资源整合到紧凑且可扩展的机架级部署中。