Supermicro 推出优化系统,助力人工智能、机器学习等领域
现代企业通过在业务和运营中运用先进应用程序和数据处理技术,正获得显著的竞争优势。这些技术包括基于人工智能的大型语言模型(如ChatGPT、LLaMa等)、基于海量训练数据和真实数据的机器学习分析、复杂的3D与有限元模型及仿真,以及其他数据密集型和计算密集型应用程序。
所有这类工作负载至少具有以下共同点:无论采用何种分层存储模型,它们都能从快速访问存储中获得显著效益。 这正是众多企业和服务提供商转向基于GPU的服务器处理大型复杂数据集及其相关工作负载的重要原因。相较于采用常规存储配置(例如本地RAM和NVMe SSD,辅以局域网或云端存储层)的传统服务器,GPU服务器不仅能更高效地处理这类工作负载,还能更快完成相关任务。
提升吞吐量的秘诀在于降低延迟和增强存储带宽。这些优势能直接转化为生产力和能力的提升,主要通过依赖直接和远程内存访问的智能I/O及网络技术实现,具体原理将在下文阐述。更快的模型训练和任务完成速度意味着人工智能应用能够更快部署,更高效地完成工作,从而加速价值实现周期。
直接内存访问与远程等效
直接内存访问(简称DMA)自计算机早期便被用于加速I/O操作。其基本原理是通过总线(或其他接口)实现设备间的内存到内存传输。 其工作原理是将指定范围的内存地址直接从发送方内存复制到接收方内存(双向传输时则在两个参与方之间进行)。该特性使CPU无需参与该过程,通过减少涉及的复制操作数量来加速传输(因此CPU无需将发送方数据复制到自身内存,再从自身内存复制到接收方内存)。
事实上,单一系统中的DMA性能仅受限于连接数据传输中发送和接收设备的总线(或其他接口)速度。对于PCIe 4.0,其速度为16千兆传输/秒(GT/s),而PCIe 5.0则达到两倍(32 GT/s)。 由于编码和封装开销,实际数据速率自然会降低,但这两种 PCIe 版本的额定带宽分别为 64 Gbps(4.0)和 128 Gbps(5.0)。这速度相当快!
远程直接内存访问(RDMA)将直接内存访问技术从单台计算机内部扩展至网络连接中的设备对之间。RDMA通常基于独特的应用程序编程接口(API),配合专用网络硬件和软件协同工作,在底层网络技术允许的范围内,尽可能提供与本地直接内存访问相同的优势。
NVIDIA GPU支持三种此类网络技术,按速度和成本递减顺序排列(最快、最贵者在前):
- NVIDIA NVLink采用最高速的专有接口和交换技术,在高速网络中加速GPU间的数据传输。在标准MLPerf Training v3.0基准测试中,其性能表现目前位居所有技术之首。单块NVIDIA H100张量核心GPU可支持多达18条NVLink连接,最高传输速率达900 Gbps(相当于PCIe 5.0有效速度的7倍)。
- InfiniBand是由InfiniBand贸易协会(IBTA)管理的高速网络标准,广泛应用于高性能网络。截至2020年,其测得的最高数据传输速率约为1.2 Tbps(约合154 GBps)。
- 以太网是一种标准网络技术,包含多种变体,包括鲜少使用的太比特以太网(TbE,约125 GBps)和更为常见的400千兆以太网(400 GbE,50 GBps)。其优势在于成本更低、部署广泛,且作为成熟技术已在众多数据中心中被熟练掌握。
在Supermicro 中部署NVIDIA GPU
NVIDIA RDMA技术可支持基于GPU的数据访问,覆盖上述三种网络技术。每种技术在性价比上各有取舍——更高成本意味着更快的速度和更低的延迟。 企业可根据预算与需求选择最适配的基础连接类型,需知每种方案都代表着可依赖的特定价格与性能组合。当各类基于AI或ML的应用(及其他数据密集型与计算密集型应用)在服务器上运行时,可充分利用GPU存储的分层架构,其中包含以下层级(按性能递减、容量递增排序):
- 第一层:GPU内存是速度最快、成本最高且容量最小的数据存储器(例如Tensor H100 GPU配备188GB HBM3内存)
- 第二层:基于PCIe总线的本地SSD速度次之,价格依然高昂,容量可达高端GPU的10至100倍。
- 第三层:局域网上的远程存储服务器可支持超过1000倍于访问它们的GPU的容量
由于人工智能和机器学习应用同时需要低延迟和高带宽,RDMA技术将DMA的本地优势扩展至网络资源(受底层连接方式限制)。该特性通过跨设备内存间传输(一端GPU,另一端存储设备)实现外部数据的高速访问。 配合NVLink、InfiniBand或某些高速以太网变体,远程适配器可将数据从远程系统的内存传输至本地GPU的内存。NVIDIA Magnum IO为数据中心提供IO加速平台,支持并行智能数据中心IO,从而最大化存储、网络及多节点多GPU通信效能,满足高要求应用场景的需求。
在GPU服务器系统中Supermicro GPU及其配套访问方案。这些方案包括本地DMA、基于API的RDMA,以及通过支持三种连接类型的多网卡和交换机实现的高性能网络。此外Supermicro 还配备一至两个名为数据处理单元(DPU)的专用ASIC芯片,用于支持GPU提供的加速I/O功能,从而减轻服务器CPU的额外I/O负载。 同理,此类服务器每台最多可支持八个网络适配器,从而持续扩展网络带宽访问能力,最大化PCIe 5.0设备与RDMA设备间的数据传输效率。这确保即使在PCIe总线上也无性能瓶颈,有效提升吞吐量并降低延迟。
性能提升效果显著。采用NVIDIA加速I/O技术后,性能提升幅度从20%至30%不等,在高强度工作负载下最高可达2倍。同时必须优化应用程序设计以充分利用存储资源,避免效率低下。因此,此类应用程序应配置为定期执行检查点操作。 否则,当节点脱离网络或遭遇长时间阻塞时,应用程序将被迫从初始状态重启。启用检查点机制意味着节点故障或阻塞事件发生时,进程仅回退至最近的快照状态(此类功能可能由本地及网络数据保护工具提供,实际上未必需要在应用程序中专门构建)。
总体而言,采用基于DPU和GPU的服务器处理AI、机器学习及其他高负载工作负载(如3D或有限元模型、仿真等)的真正优势在于,它们实现了基础设施组件与应用活动的分离。这可节省当前用于基础设施访问和管理的20%至30%的CPU周期,通过将I/O功能移入硬件来释放资源并加速访问。