Supermicro AMD 如何为人工智能解决方案提供高吞吐量与低延迟
当今现代企业正经历一场彻底的变革,其核心可称为"人工智能革命"。当企业将基于人工智能或机器学习的先进应用投入使用时,便能获得竞争优势和关键洞察。 此类工作负载的领先代表包括基于AI的大型语言模型(如ChatGPT、LLaMa等),以及依托海量训练数据集构建的机器学习模型、复杂三维模型、动画与虚拟现实技术、仿真系统,以及其他数据密集型与计算密集型应用。
在任何人工智能集群中,那些搭载GPU驱动核心的炫目机架式硬件背后,还必须配备高吞吐量、低延迟的存储系统以保障集群高效运行。这些系统支撑着数据传输通道,为训练模型输送海量数据,并执行支撑人工智能、机器学习及类似工作负载所需的复杂模拟与分析。 事实上,对于希望把握人工智能发展机遇的企业而言,最大的挑战之一就是寻找不会成为高性能CPU、GPU或数据库集群瓶颈的存储解决方案。
圣杯:高吞吐量,低延迟
如今人人都在追逐人工智能的浪潮,寻求相应的负载支持。 要让这个看似疯狂的梦想成真,必须拥有专为高负载场景优化的服务器架构。AMD EPYC 处理器(现已进入第四代9004产品系列)能通过单颗CPU充分释放服务器软硬件的性能潜能。事实上,第四AMD 系列具备以下优势:
- 在插槽和单核性能方面处于领先地位,采用5纳米核心计算芯片(CCD),最多可支持96个Zen 4核心
- 在内存带宽和容量方面处于领先地位,每个插槽配备12个通道,支持高达6TB的DDR5内存
- IO领域的领导者,支持多达128条PCIe 5.0通道,可连接CXL内存设备、固态硬盘、网卡、显卡等多种设备
EPYC从底层设计就致力于实现最高性能、效率和可持续性,能够精准协调CPU、内存、GPU、存储和网络接口的资源分配,从而充分释放各组件潜力。EPYC 通过优先处理线程,使L3缓存可被锁定供高强度工作负载独占使用,从而避免PCIe通道受常规I/O调度和竞争延迟的影响。
文件系统支持与瓶颈规避
在分布式和并行模式下,分布式文件系统会接收来自多个源的数据,这些数据需要通过各种协议、为不同应用程序进行大规模处理。在典型的存储系统中,元数据很快就会成为瓶颈。事实上,系统能够传输的数据量取决于元数据的支持能力。随着数据量的增长,元数据处理能力必须成比例地扩展。Supermicro AMD 支持WEKA分布式存储: 其架构专为实现此类比例扩展而设计。这解释了为何即使向Supermicro 或集群增加更多数据容量和服务,I/O性能仍能持续保持。从八个节点(WEKA集群的最小节点数)到数百个节点,性能均能线性扩展。其实现方式在于消除瓶颈,并为最繁重、要求最高的AI/ML(及其他类似)工作负载提供支持。
但优化服务器和集群不仅在于提供可扩展、高性能、低延迟的存储。在设计整个系统时,不能仅关注任何单一特性或功能。整个架构必须协同运作以支持特定工作负载。因此,为人工智能应用设计系统意味着从零开始构建运行时环境,以快速且令人满意地处理数据密集型应用。 这需要服务器在推理分析和整体I/O能力方面具备全方位性能。服务器在处理AI(或类似)工作负载时对数据的处理方式,与数据在节点间的进出流量同样重要。对高度并行活动的支持至关重要,因此高核心数设计能有效处理涉及此类程序执行的所有并行子任务。
另一项关键特性是EPYC服务器所支持的PCIe 5.0通道数量(单插槽最高可达128条)。这使得服务器能够容纳更多SSD、网卡、GPU,甚至扩展内存CXL设备。所有这些组件在处理高要求的人工智能和机器学习(或类似)工作负载时都发挥着至关重要的作用,包括:
- 最多支持32块PCIe Gen5固态硬盘,实现高速本地存储
- 大量高速网络接口用于连接服务器与其他节点(如存储设备或其他专用服务器),以扩展数据范围和覆盖范围。
- 大量GPU用于处理特定的、有针对性的任务或工作负载
总体而言,为服务器节点配备充足的存储空间和高带宽网络至关重要,这能确保每个节点从非本地存储设备获取数据时达到适当的输入/输出水平。这正是Supermicro AMD EPYC 在高吞吐量和低延迟方面表现优异的核心支撑。
更多核心意味着更强劲的动力!
优化人工智能能力的另一关键因素在于,单CPU的高核心数可为单处理器(UP)提供硬件级支持。AMD在核心数量上的AMD(AMD EPYC 系列支持24至96个核心)赋予了诸多必要能力和优势。 最重要的是,此类CPU能为所有核心提供统一内存访问。该特性有助于增强确定性、减少阻塞现象,并简化高性能服务器主板的设计与制造。AMD EPYC 通过优化网络、存储及GPU访问,在设计层面显著提升了AI工作负载性能。
典型案例:Supermicro 1U 拍字节级存储系统
Supermicro H13 petascale存储系统完美EPYC 。该系统为软件定义存储、内存计算、数据密集型高性能计算、私有云与公有云——尤其是AI/ML应用——提供了超高密度支持。其规格参数包含以下细节:
- 16个热插拔EDSFF E3.S NVMe插槽,可在1U机箱内提供高达480TB的存储空间
- 可选配4个CXL E3.S 2T规格内存扩展模块,外加8个E3.S NVMe存储设备
- 一颗第四代AMD 处理器——最高支持96个核心
- 24个DIMM插槽,支持最高6TB的DDR5内存
- 2个符合PCIe 5.0标准、支持Open Compute Project (OCP) 3.0规范的SFF兼容AIOM插槽
- 2个全高半长PCIe 5.0插槽,带辅助电源接口
- 钛级效率电源
Supermicro 系统可为任何数据中心提供宝贵助力,尤其适用于需要高性能、低延迟存储访问(且需大量存储)的AI、机器学习或其他计算密集型和数据密集型工作负载场景。
为何AMD Supermicro 架构是人工智能的理想选择
NVMe彻底改变了服务器和集群的格局。以NVMe为基础,全新重构的架构成为可能。它使存储能够与高性能CPU、GPU和网卡协同工作,实现规模化与高速化,尤其在EDSFF规格下表现突出。 单插槽设计使顶尖CPU能够充分调度网卡与存储资源,为HPC、AI等新一代解决方案释放最高级别的并行处理与集群能力。在平衡性能与功耗以支持可持续发展的同时AMD EPYC 代EPYC 内存带宽较EPYC 实现翻倍,并更优地支持AI工作负载。 在处理单芯片架构时,可优先将其他CPU资源(如L3缓存和内存带宽)分配给高需求线程,从而提升性能并降低延迟。您可针对硬件层级深度调优线程以支持此类工作负载。在服务器领域,没有比这更优、更快速、更高效的AI与机器学习部署方案。