Supermicro AMD 如何为人工智能解决方案提供高吞吐量与低延迟

人工智能需要低延迟存储：立即获取基于AMD EPYC™处理器的Supermicro 服务器

当今现代企业正经历一场彻底的变革，其核心可称为"人工智能革命"。当企业将基于人工智能或机器学习的先进应用投入使用时，便能获得竞争优势和关键洞察。此类工作负载的领先代表包括基于AI的大型语言模型（如ChatGPT、LLaMa等），以及依托海量训练数据集构建的机器学习模型、复杂三维模型、动画与虚拟现实技术、仿真系统，以及其他数据密集型与计算密集型应用。

在任何人工智能集群中，那些搭载GPU驱动核心的炫目机架式硬件背后，还必须配备高吞吐量、低延迟的存储系统以保障集群高效运行。这些系统支撑着数据传输通道，为训练模型输送海量数据，并执行支撑人工智能、机器学习及类似工作负载所需的复杂模拟与分析。事实上，对于希望把握人工智能发展机遇的企业而言，最大的挑战之一就是寻找不会成为高性能CPU、GPU或数据库集群瓶颈的存储解决方案。

圣杯：高吞吐量，低延迟

如今人人都在追逐人工智能的浪潮，寻求相应的负载支持。要让这个看似疯狂的梦想成真，必须拥有专为高负载场景优化的服务器架构。AMD EPYC 处理器（现已进入第四代9004产品系列）能通过单颗CPU充分释放服务器软硬件的性能潜能。事实上，第四AMD 系列具备以下优势：

在插槽和单核性能方面处于领先地位，采用5纳米核心计算芯片（CCD），最多可支持96个Zen 4核心
在内存带宽和容量方面处于领先地位，每个插槽配备12个通道，支持高达6TB的DDR5内存
IO领域的领导者，支持多达128条PCIe 5.0通道，可连接CXL内存设备、固态硬盘、网卡、显卡等多种设备

EPYC从底层设计就致力于实现最高性能、效率和可持续性，能够精准协调CPU、内存、GPU、存储和网络接口的资源分配，从而充分释放各组件潜力。EPYC 通过优先处理线程，使L3缓存可被锁定供高强度工作负载独占使用，从而避免PCIe通道受常规I/O调度和竞争延迟的影响。

文件系统支持与瓶颈规避

在分布式和并行模式下，分布式文件系统会接收来自多个源的数据，这些数据需要通过各种协议、为不同应用程序进行大规模处理。在典型的存储系统中，元数据很快就会成为瓶颈。事实上，系统能够传输的数据量取决于元数据的支持能力。随着数据量的增长，元数据处理能力必须成比例地扩展。Supermicro AMD 支持WEKA分布式存储：其架构专为实现此类比例扩展而设计。这解释了为何即使向Supermicro 或集群增加更多数据容量和服务，I/O性能仍能持续保持。从八个节点（WEKA集群的最小节点数）到数百个节点，性能均能线性扩展。其实现方式在于消除瓶颈，并为最繁重、要求最高的AI/ML（及其他类似）工作负载提供支持。

但优化服务器和集群不仅在于提供可扩展、高性能、低延迟的存储。在设计整个系统时，不能仅关注任何单一特性或功能。整个架构必须协同运作以支持特定工作负载。因此，为人工智能应用设计系统意味着从零开始构建运行时环境，以快速且令人满意地处理数据密集型应用。这需要服务器在推理分析和整体I/O能力方面具备全方位性能。服务器在处理AI（或类似）工作负载时对数据的处理方式，与数据在节点间的进出流量同样重要。对高度并行活动的支持至关重要，因此高核心数设计能有效处理涉及此类程序执行的所有并行子任务。

另一项关键特性是EPYC服务器所支持的PCIe 5.0通道数量（单插槽最高可达128条）。这使得服务器能够容纳更多SSD、网卡、GPU，甚至扩展内存CXL设备。所有这些组件在处理高要求的人工智能和机器学习（或类似）工作负载时都发挥着至关重要的作用，包括：

最多支持32块PCIe Gen5固态硬盘，实现高速本地存储
大量高速网络接口用于连接服务器与其他节点（如存储设备或其他专用服务器），以扩展数据范围和覆盖范围。
大量GPU用于处理特定的、有针对性的任务或工作负载

总体而言，为服务器节点配备充足的存储空间和高带宽网络至关重要，这能确保每个节点从非本地存储设备获取数据时达到适当的输入/输出水平。这正是Supermicro AMD EPYC 在高吞吐量和低延迟方面表现优异的核心支撑。

典型案例：Supermicro 1U 拍字节级存储系统

Supermicro H13 petascale存储系统完美EPYC 。该系统为软件定义存储、内存计算、数据密集型高性能计算、私有云与公有云——尤其是AI/ML应用——提供了超高密度支持。其规格参数包含以下细节：

16个热插拔EDSFF E3.S NVMe插槽，可在1U机箱内提供高达480TB的存储空间
可选配4个CXL E3.S 2T规格内存扩展模块，外加8个E3.S NVMe存储设备
一颗第四代AMD 处理器——最高支持96个核心
24个DIMM插槽，支持最高6TB的DDR5内存
2个符合PCIe 5.0标准、支持Open Compute Project (OCP) 3.0规范的SFF兼容AIOM插槽
2个全高半长PCIe 5.0插槽，带辅助电源接口
钛级效率电源

Supermicro 系统可为任何数据中心提供宝贵助力，尤其适用于需要高性能、低延迟存储访问（且需大量存储）的AI、机器学习或其他计算密集型和数据密集型工作负载场景。

为何AMD Supermicro 架构是人工智能的理想选择

NVMe彻底改变了服务器和集群的格局。以NVMe为基础，全新重构的架构成为可能。它使存储能够与高性能CPU、GPU和网卡协同工作，实现规模化与高速化，尤其在EDSFF规格下表现突出。单插槽设计使顶尖CPU能够充分调度网卡与存储资源，为HPC、AI等新一代解决方案释放最高级别的并行处理与集群能力。在平衡性能与功耗以支持可持续发展的同时AMD EPYC 代EPYC 内存带宽较EPYC 实现翻倍，并更优地支持AI工作负载。在处理单芯片架构时，可优先将其他CPU资源（如L3缓存和内存带宽）分配给高需求线程，从而提升性能并降低延迟。您可针对硬件层级深度调优线程以支持此类工作负载。在服务器领域，没有比这更优、更快速、更高效的AI与机器学习部署方案。

机架式服务器

1U 双处理器

2U 双处理器

单处理器

多处理器

产品系列

GPU 服务器

8U/10U GPU 线路

4U/5U GPU 系列

双GPU线路

1U GPU 产品线

双服务器

FlexTwin™

BigTwin

GrandTwin

TwinPro®

FatTwin®

刀片服务器

超级刀片

微型刀片

微云

存储服务器

所有存储系统

全闪存 NVMe

顶部装载存储

JBOF

Petascale Grace 存储

企业优化存储

JBOD 存储柜

主板

服务器板

工作站板

嵌入式/物联网电路板

台式机/游戏板

主板矩阵

全球 SKU

底盘

1U 机箱

2U 机箱

3U 机箱

4U / 立式机箱

中型/微型塔式

嵌入式/物联网机箱

移动支架/驱动套件

JBOD 存储柜

全球 SKU

超级支架

数据中心解决方案工程（DCSE）

机架集成服务

配件

电缆矩阵

插槽卡矩阵

存储 AOC 矩阵

电源矩阵

散热器矩阵

系统风扇矩阵

移动支架/驱动套件

前机箱边框

存储、输入/输出、安全

边缘人工智能与物联网系统

紧凑型边缘系统

紧凑型边缘服务器

机架式边缘服务器

嵌入式组件

嵌入式主板

嵌入式机箱

开关

适配器

SuperWorkstations

水冷式人工智能开发平台

单处理器

双处理器

Supero™ 游戏解决方案

人工智能基础设施

数据中心构件解决方案®(DCBBS)

人工智能工厂

边缘人工智能

人工智能存储

英伟达解决方案

AMD 解决方案