Supermicro NVIDIA 提供针对人工智能、机器学习等技术的优化系统

充分利用先进的数据访问和传输技术来提高生产力

现代企业通过在业务和运营中使用先进的应用程序和数据处理技术，获得了相当大的竞争优势。这些技术包括基于人工智能的大型语言模型（如 ChatGPT、LLaMa 等）、基于海量训练数据和真实数据的机器学习分析、复杂的 3D 和有限元模型及仿真，以及其他数据密集型和计算密集型应用程序。

所有这些工作负载至少有一点共同之处：它们都能从对存储的快速访问中获益匪浅，无论你采用何种分层存储模型。这正是众多企业和服务提供商转向基于 GPU 的服务器来处理大型复杂数据集及其相关工作负载的主要原因之一。与采用更典型存储配置（例如本地 RAM 和 GPU）的传统服务器相比，它们能够更有效地处理这些工作负载，并更快地完成此类任务。 NVMe SSD，以及局域网或云端的额外存储层）。

提升吞吐量的秘诀在于降低延迟和提高存储带宽。这些优势能够直接转化为更高的生产力和处理能力，主要得益于巧妙的 I/O 和网络技术，这些技术依赖于直接和远程内存访问，具体内容将在下文详述。更快的模型训练和作业完成速度意味着人工智能驱动的应用程序可以更快地部署，更快地完成任务，从而加快价值实现速度。

直接内存访问及其远程等效技术

直接内存访问（DMA）自计算机诞生之初就被用于加速I/O操作。DMA本质上是通过总线（或其他接口）将数据从一个设备直接传输到另一个设备。它的工作原理是将发送方内存中的一系列内存地址直接复制到接收方内存（或者在双向传输中在两个设备之间复制）。这项技术将CPU从数据传输过程中移除，并通过减少复制操作的次数来提高传输速度（这样CPU就无需先将发送方的数据复制到自身内存，然后再将数据从自身内存复制到接收方内存）。

事实上，单个系统上的DMA性能仅受限于连接数据传输中发送和接收设备的总线（或其他接口）的速度。 PCIe 4.0，也就是每秒 16 千兆传输 (GT/s)，而 4.0 版本则需要两倍的传输量。 PCIe 5.0 (32 GT/s)。由于编码和封装开销，数据速率自然会较慢，但这两者的额定带宽是 5.0 GHz。 PCIe 版本速度分别为 64 Gbps (4.0) 和 128 Gbps (5.0)。真快！

远程直接内存访问 (RDMA) 将单台计算机内部的直接内存访问功能扩展到通过网络连接的两台设备之间。RDMA 通常基于独特的应用程序编程接口 (API)，该接口与专用的网络硬件和软件配合使用，在底层网络技术允许的范围内，提供与本地 DMA 相同的诸多优势。

NVIDIA GPU 支持三种此类网络技术，按速度和成本递减的顺序排列（速度最快、成本最高排在最前面）：

NVIDIA NVLink 采用高速专有接口和交换技术，可加速高速网络上 GPU 之间的数据传输。目前，它在标准 MLPerf Training v3.0 基准测试中，性能在所有技术中名列前茅。单个 NVIDIA H100 Tensor Core GPU 最多支持 18 个 NVLink 连接，传输速度高达 900 Gbps（是现有速度的 7 倍）。 PCIe 5.0）。
InfiniBand 是由以下机构监管的高速网络标准： InfiniBand 国际宽带传输协议（IBTA）已广泛应用于高性能网络。截至2020 年，其最高测量数据速率约为 1.2 Tbps（约 154 GBps）。
以太网是一种标准的网络技术，拥有多种变体，包括很少使用的千兆以太网（TbE，速度约为 125 Gbps）和更常见的 400 GbE（速度约为 50 Gbps）。它的优势在于价格更实惠、部署更广泛，并且在许多数据中心中都是一种成熟的技术。

让NVIDIA GPU发挥作用Supermicro 服务器

NVIDIA RDMA 技术支持基于 GPU 的数据访问，并可跨越上述三种网络技术。每种技术都提供不同的性价比，更高的成本意味着更快的速度和更低的延迟。企业可以根据自身预算和需求选择最合适的底层连接类型，因为每种选项都代表着特定的价格和性能组合，值得信赖。当各种基于 AI 或 ML（以及其他数据和计算密集型）的应用程序运行在此类服务器上时，它们可以利用 GPU 存储的分层架构，该架构提供以下层级（按性能降序排列，按大小和容量升序排列）：

第一层级：GPU 内存是速度最快、最昂贵、容量最小的数据存储（例如，Tensor H100 GPU 拥有 188GB 的 HBM3 内存）。
第二层：本地 SSD PCIe 总线速度仅次于显卡，但仍然很昂贵，而且其容量是高端GPU的10到100倍。
第三层：局域网上的远程存储服务器可以支持超过访问它们的GPU容量1000倍的容量。

由于人工智能和机器学习应用需要低延迟和高带宽，RDMA 可以将 DMA 的本地优势扩展到网络资源（取决于底层连接）。此功能支持通过跨设备（一端是 GPU，另一端是存储设备）的内存到内存传输快速访问外部数据。与 NVLink 配合使用时， InfiniBand或者使用某种高速以太网变体，远程适配器将数据从远程系统的内存传输到本地 GPU 的内存。NVIDIA Magnum IO为数据中心提供 I/O 加速平台，支持并行、智能的数据中心 I/O，从而最大限度地提高存储、网络以及多节点、多 GPU 通信的性能，以满足对性能要求苛刻的应用的需求。

在其GPU服务器系统中， Supermicro 它使用 NVIDIA GPU 及其支持的访问方式。这些方式包括本地 DMA、通过其 API 实现的 RDMA，以及通过支持所有三种连接类型的多个网卡和交换机实现的高性能网络。此外， Supermicro GPU 服务器还包含一到两个称为数据处理单元 (DPU) 的专用 ASIC，以支持 GPU 提供的加速 I/O 功能。这些 DPU 可以减轻服务器 CPU 的额外 I/O 开销。同样，此类服务器最多可支持八个网络适配器，从而实现持续和扩展的网络带宽访问，以最大限度地提高数据传输效率。 PCIe 5.0 设备和 RDMA 设备。这确保即使在以下情况下也不会出现瓶颈： PCIe 总线，有助于最大限度地提高吞吐量并最大限度地降低延迟。

对性能的影响非常显著。使用 NVIDIA 的加速 I/O 技术，性能提升幅度从 20% 到 30% 不等，对于高强度工作负载，最高可达 2 倍。此外，设计应用程序时充分利用存储资源至关重要，以避免效率低下。因此，此类应用程序应配置为定期创建检查点。否则，如果某个节点脱离网络或长时间阻塞，应用程序必须从初始状态重新开始。使用检查点意味着，即使发生节点故障或其他阻塞事件，进度也只会回滚到最近的快照（实际上，本地和网络数据保护工具可能提供此类功能，无需专门集成到应用程序中）。

总体而言，使用基于 DPU 和 GPU 的服务器处理 AI、ML 和其他高需求工作负载（例如，3D 或有限元模型、仿真等）的真正优势在于，它们能够将基础设施组件与应用程序活动分离。这可以节省目前用于基础设施访问和管理的 20% 到 30% 的 CPU 周期。通过将 I/O 功能推入硬件，可以释放资源并加快访问速度。

人工智能基础设施

数据中心构件解决方案®(DCBBS)

人工智能工厂

边缘人工智能

人工智能存储

行业人工智能解决方案

英伟达解决方案

AMD 解决方案

英特尔解决方案

Arm AGI解决方案

机架式服务器

双处理器

单处理器

多处理器

GPU 服务器

8U/10U GPU 线路

4U/5U GPU 系列

2U GPU生产线

1U GPU 生产线

双服务器

FlexTwin™

BigTwin

GrandTwin

TwinPro®

FatTwin®

刀片服务器

超级刀片

微型刀片

微云

存储服务器

所有存储系统

全闪存 NVMe

顶部装载存储

JBOF

Petascale Grace 存储

企业优化存储

JBOD 存储柜

主板

服务器板

工作站板

嵌入式/物联网电路板

台式机/游戏板

主板矩阵

全球 SKU

底盘

1U 机箱

2U 机箱

3U 机箱

4U / 立式机箱

中型/微型塔式

嵌入式/物联网机箱

移动支架/驱动套件

JBOD 存储柜

全球 SKU

超级支架

机架集成服务

配件

电缆矩阵

插槽卡矩阵

存储 AOC 矩阵

电源矩阵

散热器矩阵

系统风扇矩阵

移动支架/驱动套件

前机箱边框

存储、输入/输出、安全

边缘人工智能与物联网系统

紧凑型边缘系统

紧凑型边缘服务器

机架式边缘服务器

嵌入式组件

嵌入式主板

嵌入式机箱

开关

适配器

SuperWorkstations

水冷式人工智能开发平台

单处理器

双处理器

桌面