如何Supermicro AMD 服务器为人工智能解决方案提供高吞吐量和低延迟
如今,现代企业正经历一场彻底的变革,其核心可称之为“人工智能革命”。企业通过应用先进的人工智能或机器学习应用程序,获得了竞争优势和关键洞察。此类工作负载的典型例子包括基于人工智能的大型语言模型(LLM),例如 ChatGPT、LLaMa 等;以及基于海量训练数据集的机器学习模型、复杂的 3D 模型、动画和虚拟现实、仿真以及其他数据和计算密集型应用。
在任何人工智能集群中,除了那些搭载GPU驱动核心的炫酷机架式硬件之外,还需要高吞吐量、低延迟的存储系统来维持集群的高效运行。这些存储系统支持着海量数据的传输通道,用于训练模型,并执行人工智能、机器学习及类似工作负载所需的复杂模拟和分析。事实上,对于希望利用人工智能发展机遇的企业而言,最大的挑战之一就是找到一种不会成为高性能CPU、GPU或数据库集群瓶颈的存储解决方案。
圣杯:高吞吐量,低延迟
大家都在争相拥抱人工智能,并寻求相应的负载支持。要让这个并非遥不可及的梦想成真,一个能够支持高负载的优化服务器架构至关重要。 AMD 已建立其EPYC 服务器 CPU——目前是 9004 产品系列的第四代——旨在通过单个 CPU 充分发挥服务器硬件和软件的性能。事实上,第四代AMD EPYC™ 家庭具有以下优势:
- 在插槽和单核性能方面处于领先地位,5nm核心计算芯片(CCD)中最多可容纳96个Zen 4核心。
- 在内存带宽和容量方面处于领先地位,拥有 12 个通道,最高可达 6TB。 DDR5 每个插槽的内存
- 在 IO 领域处于领先地位,最多可支持 128 条通道PCIe 5.0 版本访问权限CXL 内存设备、固态硬盘、网卡、显卡等等
从设计之初就旨在实现最佳性能、效率和可持续性, AMD EPYC基于该技术的服务器可以管理必要的资源平衡,从而最大限度地利用 CPU、内存、GPU、存储和网络接口。事实上, AMD EPYC 该架构优先考虑线程,以便将 L3 缓存锁定给密集型工作负载独占使用。 PCIe 通道不受典型的 I/O 调度和争用延迟的影响。
文件系统支持和瓶颈规避
在分布式和并行模式下,分布式文件系统的数据来自多个来源,需要跨越各种协议并针对各种应用程序进行大规模处理。在典型的存储系统中,元数据很快就会成为瓶颈。实际上,系统能够处理的数据量取决于元数据的处理能力。随着数据量的增加,元数据处理能力也需要相应扩展。 Supermicro AMD 服务器支持WEKA 分布式存储:它的架构旨在提供这种比例扩展。这就解释了为什么即使向服务器增加更多的数据容量和服务,WEKA 也能保持可扩展性。 Supermicro 无论采用何种系统或集群,I/O 性能始终保持稳定。性能可从 8 个节点(WEKA 集群的最小节点数)线性扩展到数百个节点。这得益于其消除瓶颈并支持即使是最繁重、要求最高的 AI/ML(以及其他类似)工作负载的能力。
但优化服务器和集群不仅仅是提供可扩展、高性能、低延迟的存储。在设计整个系统时,不能只关注任何单一特性或功能。整个架构必须协同工作,才能支持目标工作负载。因此,为人工智能应用设计系统意味着要从零开始构建一个运行时环境,以便快速、高效地处理数据密集型应用。这得益于服务器在推理和分析方面的全面性能以及整体 I/O 能力。服务器在处理人工智能(或类似)工作负载时如何处理数据,与进出任何给定节点的数据流量同样重要。支持高度并行活动至关重要,因此,高核心数对于处理涉及此类程序执行的所有并行子任务至关重要。
另一个关键特征是数量PCIe 5.0 车道AMD EPYC基于 的服务器(单路最多 128 个)。这使得服务器能够容纳更多 SSD、网卡、GPU,甚至扩展内存。 CXL 这些设备在处理高要求的 AI 和 ML(或类似)工作负载方面都发挥着至关重要的作用,其中包括:
- 最多 32 PCIe 用于高速本地存储的第五代固态硬盘
- 大量高速网络接口用于将服务器连接到其他节点,例如存储服务器或其他专用服务器,以扩展数据范围和传输距离。
- 大量GPU用于处理专门的、针对性的任务或工作负载
一般来说,服务器节点需要配备充足的存储空间和高网络带宽,才能确保每个节点从可能不在主机上的存储设备获得适当的数据流入和流出。这基本上就是这里大多数关于高吞吐量和低延迟的说法背后的逻辑。 Supermicro AMD EPYC 服务器。
更多核心意味着更强的“动力!”
优化 AI 能力的另一个关键因素是,每个 CPU 的高核心数为所谓的 UP(单处理器)提供硬件级支持。 AMD核心计数方面的领导地位( AMD EPYC 例如,9004 系列支持 24 到 96 个核心,这赋予了它诸多必要的功能和优势。最重要的是,这类 CPU 为其所有核心提供统一的内存访问。这一特性有助于提高确定性,减少阻塞,并使高性能服务器主板的设计和制造更加便捷。通过设计, AMD EPYC 该架构提升了 AI 工作负载性能,提供了优化的网络、存储和 GPU 访问。
举例说明: Supermicro H13 1U 百亿亿次级存储系统
这Supermicro H13 Petascale 存储系统很好地诠释了这一点。 EPYC 该架构能够胜任。它为软件定义存储、内存计算、数据密集型高性能计算、私有云和公有云,以及——尤其——人工智能/机器学习应用提供高密度支持。其规格包含以下详细信息:
- 16个热插拔EDSFF E3.S NVMe 1U机箱,最多可容纳480TB存储容量的插槽
- 可选4 CXL E3.S 2T 外形尺寸内存扩展模块,外加 8 个 E3.S NVMe 存储设备
- 第四代AMD EPYC™ 处理器——最高可达96个核心
- 24 个 DIMM 插槽,最大支持 6TB 内存DDR5 记忆
- 2 PCIe 5.0 开放计算项目 (OCP) 3.0 SFF 兼容AIOM 插槽
- 2个全高半身PCIe 5.0 插槽,带辅助电源
- 钛金级效率电源
这Supermicro H13 对于任何数据中心而言,该系统都是一个宝贵的补充,因为人工智能、机器学习或其他计算和数据密集型工作负载需要高性能、低延迟的存储访问(并且需要大量的存储容量)。
为什么AMD 和Supermicro 服务器架构是人工智能的最佳选择
NVMe 彻底改变了服务器和集群的格局。 NVMe 从根本上说,完全重新设计的架构成为可能。它使存储能够与高性能 CPU、GPU 和网卡协同工作,尤其是在以下情况下: EDSFF 采用单路设计,使一流的 CPU 能够充分利用网卡和存储设备,并发挥高性能计算 (HPC)、人工智能 (AI) 和其他下一代解决方案所需的最高并行性和集群能力。在性能和功耗之间取得平衡,以支持可持续发展,内存带宽翻倍。 AMD EPYC 第三代到第四代处理器对人工智能工作负载的支持也更出色。在单芯片架构中,您可以优先将其他 CPU 资源(例如 L3 缓存和内存带宽)分配给高需求线程,从而提升性能并降低延迟。您可以对线程进行调优,直至硬件级别,以支持此类工作负载。在这样的服务器上运行人工智能和机器学习,没有比这更好、更快、更高效的方式了。