跳至主要内容

Supermicro AMD 服务器如何为AI解决方案提供高吞吐量和低延迟

AI需要低延迟存储:立即通过基于AMD EPYC™ CPU的Supermicro服务器实现

当今现代企业正经历一场彻底的变革,其核心可称为"人工智能革命"。当企业将基于人工智能或机器学习的先进应用投入使用时,便能获得竞争优势和关键洞察。 此类工作负载的领先代表包括基于AI的大型语言模型(如ChatGPT、LLaMa等),以及依托海量训练数据集构建的机器学习模型、复杂三维模型、动画与虚拟现实技术、仿真系统,以及其他数据密集型与计算密集型应用。

在任何人工智能集群中,那些搭载GPU驱动核心的炫目机架式硬件背后,还必须配备高吞吐量、低延迟的存储系统以保障集群高效运行。这些系统支撑着数据传输通道,为训练模型输送海量数据,并执行支撑人工智能、机器学习及类似工作负载所需的复杂模拟与分析。 事实上,对于希望把握人工智能发展机遇的企业而言,最大的挑战之一就是寻找不会成为高性能CPU、GPU或数据库集群瓶颈的存储解决方案。

圣杯:高吞吐量,低延迟

每个人都在追逐 AI 浪潮,并寻求相应的负载支持。要实现这个并非遥不可及的梦想,一个经过优化以支持严苛工作负载的服务器架构是绝对必要的。AMD 设计其 EPYC 服务器 CPU(目前已发展到 9004 产品家族的第四代),旨在通过单个 CPU 从服务器硬件和软件中获得最佳性能。事实上,第四代 AMD EPYC™ 系列具有以下优势:

  • 在插槽和单核性能方面处于领先地位,采用5纳米核心计算芯片(CCD),最多可支持96个Zen 4核心
  • 在内存带宽和容量方面处于领先地位,每个插槽配备12个通道,支持高达6TB的DDR5内存
  • IO领域的领导者,支持多达128条PCIe 5.0通道,可连接CXL内存设备、固态硬盘、网卡、显卡等多种设备

AMD EPYC 服务器从设计之初就以实现最大性能、效率和可持续性为目标,能够平衡各项资源,从而充分发挥 CPU、内存、GPU、存储和网络接口的潜力。事实上,AMD EPYC 架构优先处理线程,L3 缓存可以专用于密集型工作负载,因此 PCIe 通道不会受到典型的 I/O 调度和争用延迟的影响。

文件系统支持与瓶颈规避

在分布式和并行模式下,对于分布式文件系统,数据从多个源头到达,需要在各种协议和不同应用中进行大规模处理。在典型的存储系统中,元数据很快就会成为瓶颈。事实上,系统能够处理的数据量受限于元数据的支持能力。随着数据量的增长,元数据处理能力也需要按比例扩展。Supermicro AMD 服务器支持 WEKA 分布式存储:其架构旨在提供这种按比例扩展的能力。这解释了为什么即使 Supermicro 系统或集群增加了更多数据容量和服务,I/O 性能仍能保持不减。性能可从八个节点(WEKA 集群的最小节点数)线性扩展到数百个节点。通过消除瓶颈,并为最繁重和要求最高的 AI/ML(及其他类似)工作负载提供支持来实现这一点。

但优化服务器和集群不仅在于提供可扩展、高性能、低延迟的存储。在设计整个系统时,不能仅关注任何单一特性或功能。整个架构必须协同运作以支持特定工作负载。因此,为人工智能应用设计系统意味着从零开始构建运行时环境,以快速且令人满意地处理数据密集型应用。 这需要服务器在推理分析和整体I/O能力方面具备全方位性能。服务器在处理AI(或类似)工作负载时对数据的处理方式,与数据在节点间的进出流量同样重要。对高度并行活动的支持至关重要,因此高核心数设计能有效处理涉及此类程序执行的所有并行子任务。

另一个关键特性是 AMD EPYC 服务器中的 PCIe 5.0 通道数量(单插槽最多可达 128 条)。这使得服务器能够容纳更多的 SSD、网卡 (NIC)、GPU,甚至扩展内存 CXL 设备。所有这些都在处理严苛的 AI 和 ML(或类似)工作负载中发挥着至关重要的作用,包括:

  • 最多支持32块PCIe Gen5固态硬盘,实现高速本地存储
  • 大量高速网络接口用于连接服务器与其他节点(如存储设备或其他专用服务器),以扩展数据范围和覆盖范围。
  • 大量GPU用于处理特定的、有针对性的任务或工作负载

通常,服务器节点需要具备大容量存储和高网络带宽,以便为每个节点提供来自可能不在主机上的存储的适当数据流入和流出能力。这基本上是 Supermicro AMD EPYC 服务器实现高吞吐量和低延迟的大部分说法的背后原因。

更多核心意味着更强劲的动力!

优化 AI 能力的另一个关键因素是,每个 CPU 的高核心数量为所谓的 UP(单处理器)提供了硬件级支持。AMD 在核心数量方面的领先地位(例如,AMD EPYC 9004 系列支持 24 到 96 个核心)带来了许多必要的功能和优势。最重要的是,此类 CPU 为其所有核心提供统一内存访问。此功能有助于提高确定性、减少阻塞,并使服务器主板更易于设计和构建以实现高性能。从设计上讲,AMD EPYC 架构可提升 AI 工作负载性能,提供优化的网络、存储和 GPU 访问。

典型案例:Supermicro H13 1U 拍字节级存储系统

Supermicro H13 拍字节级存储系统 完美诠释了 EPYC 架构的强大功能。它为软件定义存储、内存计算、数据密集型 HPC、私有云和公共云,尤其是 AI/ML 应用提供了高密度。其规格包括以下详细信息:

  • 16个热插拔EDSFF E3.S NVMe插槽,可在1U机箱内提供高达480TB的存储空间
  • 可选配4个CXL E3.S 2T规格内存扩展模块,外加8个E3.S NVMe存储设备
  • 一个第四代 AMD EPYC™ 处理器——最多 96 个核心
  • 24个DIMM插槽,支持最高6TB的DDR5内存
  • 2个符合PCIe 5.0标准、支持Open Compute Project (OCP) 3.0规范的SFF兼容AIOM插槽
  • 2个全高半长PCIe 5.0插槽,带辅助电源接口
  • 钛级效率电源

Supermicro H13 系统对于任何需要高性能、低延迟存储访问(且需求量大)的 AI、ML 或其他计算密集型和数据密集型工作负载的数据中心而言,都是宝贵的补充。

为何AMD和Supermicro服务器架构是AI的理想之选

NVMe彻底改变了服务器和集群领域。以NVMe为基础,全新的架构得以实现。它使得存储能够与高性能CPU、GPU和NIC协同工作,实现规模化和高速运行,尤其是在采用EDSFF外形规格时。单路设计使顶级的CPU能够充分利用网卡和存储,为HPC、AI及其他下一代解决方案发挥最高水平的并行处理和集群能力。在平衡性能与功耗以支持可持续性的同时,内存带宽从AMD EPYC 3rd Gen翻倍至4th Gen,这也更好地支持了AI工作负载。在单芯片架构下,您可以优先将其他CPU资源(例如L3缓存和内存带宽)分配给高需求线程,以提高性能并降低延迟。您可以将线程调优至硬件层面,以支持此类工作负载。将AI和ML应用于实践,没有比在这些服务器上运行更好、更快或更高效的方式了。