跳至主要內容

Supermicro AMD 伺服器如何為 AI 解決方案提供高吞吐量和低延遲

AI 需要低延遲儲存:立即使用搭載 AMD EPYC™ CPU 的 Supermicro 伺服器實現

當代企業正經歷一場全面轉型,其核心可稱為「AI 」。當組織運用AI應用程式時,便能獲得競爭優勢與關鍵洞察。 此類工作負載的領先範例包括:以ChatGPT、LLaMa等為AI語言模型(LLMs);基於龐大訓練資料集的機器學習模型;複雜的3D模型、動畫與虛擬實境技術;各類模擬系統;以及其他高度依賴數據與運算能力的應用程式。

在任何AI GPU驅動核心後方,那些炫目的機架式硬體背後,還必須配備高吞吐量、低延遲的儲存系統,才能維持叢集的高效能運作。這些系統支撐著輸送海量資料的管道,用於訓練模型並執行複雜的模擬與分析,以支援AI、機器學習及相關工作負載。 事實上,企業欲把握AI 發展契機時,所面臨的最大挑戰之一AI 尋找能避免成為高效能CPU、GPU或資料庫叢集瓶頸的儲存解決方案。

聖杯:高吞吐量,低延遲

所有人都在搭上 AI 的順風車,並尋求相應的工作負載支援。為了實現這個並非遙不可及的夢想,最佳化以支援嚴苛工作負載的伺服器架構絕對是不可或缺的。AMD 打造了 EPYC 伺服器 CPU(目前為 9004 產品系列的第四代),旨在透過單一 CPU 從伺服器硬體和軟體中獲得最佳效能。事實上,第四代 AMD EPYC™ 系列提供以下優勢:

  • 在插槽和單核心效能方面處於領導地位,採用5奈米核心運算晶片(CCD)設計,最高可達96顆Zen 4核心
  • 在記憶體頻寬與容量方面處於領導地位,每插槽配備12個通道,最高可支援6TB DDR5記憶體
  • IO領域的領導地位,提供高達128條PCIe 5.0通道,適用於CXL記憶體裝置、固態硬碟、網路介面卡、圖形處理器等設備

搭載 AMD EPYC 的伺服器從頭開始設計,旨在實現最大效能、效率和永續性,能夠管理必要的平衡,以充分發揮 CPU、記憶體、GPU、儲存和網路介面的效能。事實上,AMD EPYC 架構優先處理執行緒,以便 L3 快取可以專門用於密集型工作負載,因此 PCIe 通道不會受到典型的 IO 排程和爭用延遲的影響。

檔案系統支援與瓶頸規避

在分散式和平行模式中,對於分散式檔案系統,資料會從多個來源到達,這些資料需要跨各種協定和應用程式進行大規模處理。在典型的儲存系統中,中繼資料很快就會成為瓶頸。事實上,您只能根據中繼資料的支援量來傳輸資料。隨著資料量的擴展,處理中繼資料的能力也需要按比例擴展。Supermicro AMD 伺服器支援 WEKA 分散式儲存:其架構旨在提供這種比例擴展。這解釋了為什麼即使為 Supermicro 系統或叢集增加更多資料容量和服務,I/O 效能仍然持續不減。效能從八個節點(WEKA 叢集的最小節點數)線性擴展到數百個節點。透過消除瓶頸並為最繁重和最嚴苛的 AI/ML(及其他類似)工作負載提供支援來實現。

然而,伺服器與叢集的優化不僅在於提供可擴展、高效能、低延遲的儲存方案。在設計整體系統時,絕不能僅聚焦於單一特性或功能。整個架構必須協同運作,方能支援特定工作負載。因此,為AI 設計系統,意味著要從零打造執行環境,以快速且完善地處理資料密集型應用。 這需要伺服器在推理分析與整體I/O能力方面具備全方位效能。伺服器在AI 或類似)工作負載時對數據的處理方式,與數據在各節點間的傳輸流量同等重要。支援高度並行作業至關重要,因此具備高核心數量的處理器才能有效執行涉及此類程式的所有並行子任務。

另一個關鍵功能是搭載 AMD EPYC 的伺服器中的 PCIe 5.0 通道數量(單一插槽最多 128 個)。這使得伺服器能夠容納更多的 SSD、NIC、GPU,甚至擴展記憶體 CXL 裝置。所有這些在處理嚴苛的 AI 和 ML(或類似)工作負載中都扮演著重要角色,包括:

  • 最多可支援32組PCIe Gen5 SSD,實現高速本地儲存
  • 大量高速網路介面用於連接伺服器與其他節點(例如儲存裝置或其他專用伺服器),以擴展資料範圍與覆蓋範圍。
  • 大量用於處理特定目標任務或工作負載的GPU

一般而言,伺服器節點上擁有大量儲存空間和高網路頻寬非常重要,以為每個此類節點提供適當的資料進出量,這些資料可能來自非主機上的儲存。這基本上是此處關於 Supermicro AMD EPYC 伺服器高吞吐量和低延遲的大部分聲明背後的依據。

更多核心意味著更強勁的「爆發力」!

最佳化 AI 能力的另一個關鍵因素是,每個 CPU 的高核心數為所謂的 UP(單一處理器)提供了硬體級支援。AMD 在核心數量方面的領先地位(例如,AMD EPYC 9004 系列支援 24 到 96 個核心)賦予了眾多必要的功能和優勢。最重要的是,此類 CPU 為其所有核心提供統一記憶體存取。此功能有助於確定性、減少阻塞,並使伺服器主機板更容易設計和建置以實現高效能。透過設計,AMD EPYC 架構提升了 AI 工作負載效能,提供最佳化的網路、儲存和 GPU 存取。

實例:Supermicro H13 1U 拍位元組級儲存系統

Supermicro H13 拍位元組級儲存系統充分展示了EPYC架構的潛力。它為軟體定義儲存、記憶體內運算、資料密集型HPC、私有雲和公有雲,以及—特別是—AI/ML應用程式提供了高密度。其規格包括以下詳細資訊:

  • 16個熱插拔EDSFF E3.S NVMe插槽,可在1U機箱內提供高達480TB的儲存空間
  • 可選配 4 個 CXL E3.S 2T 規格記憶體擴充模組,外加 8 個 E3.S NVMe 儲存裝置
  • 一顆第四代 AMD EPYC™ 處理器—最高達 96 核心
  • 24 個 DIMM 模組,最高可擴充至 6TB 的 DDR5 記憶體
  • 2 個 PCIe 5.0 開放運算計畫 (OCP) 3.0 SFF 規範相容 AIOM 插槽
  • 2個全高半長PCIe 5.0插槽,附輔助電源
  • 鈦級效率電源供應器

Supermicro H13系統對於任何資料中心而言,都是一項寶貴的補充,在這些資料中心中,AI、ML或其他運算和資料密集型工作負載需要高效能、低延遲的儲存存取(且需求量大)。

為何 AMD 與 Supermicro 伺服器架構是人工智慧的最佳選擇

NVMe 已徹底改變了伺服器和叢集領域的格局。以 NVMe 為基礎,徹底重新設計的架構得以實現。它使儲存能夠與高效能 CPU、GPU 和 NIC 並行,以大規模和高速運作,尤其是在 EDSFF 外形尺寸下。單插槽設計使頂級 CPU 能夠充分利用網路卡和儲存,並為 HPC、AI 和其他下一代解決方案發揮最高水準的平行處理和叢集功能。在平衡效能和功耗以支援永續性的同時,記憶體頻寬從 AMD EPYC 第三代增加到第四代,這也更好地支援了 AI 工作負載。處理單晶片架構時,您可以優先將其他 CPU 資源(例如 L3 快取和記憶體頻寬)分配給高需求執行緒,以提高效能並減少延遲。您可以將執行緒調整至硬體層級,以支援此類工作負載。在此類伺服器上運行 AI 和 ML,沒有比這更好、更快或更有效率的方式。