Supermicro AMD 如何為AI 提供高吞吐量與低延遲
當代企業正經歷一場全面轉型,其核心可稱為「AI 」。當組織運用AI應用程式時,便能獲得競爭優勢與關鍵洞察。 此類工作負載的領先範例包括:以ChatGPT、LLaMa等為AI語言模型(LLMs);基於龐大訓練資料集的機器學習模型;複雜的3D模型、動畫與虛擬實境技術;各類模擬系統;以及其他高度依賴數據與運算能力的應用程式。
在任何AI GPU驅動核心後方,那些炫目的機架式硬體背後,還必須配備高吞吐量、低延遲的儲存系統,才能維持叢集的高效能運作。這些系統支撐著輸送海量資料的管道,用於訓練模型並執行複雜的模擬與分析,以支援AI、機器學習及相關工作負載。 事實上,企業欲把握AI 發展契機時,所面臨的最大挑戰之一AI 尋找能避免成為高效能CPU、GPU或資料庫叢集瓶頸的儲存解決方案。
聖杯:高吞吐量,低延遲
人人都爭相加入AI ,並尋求相應的工作負載支援。 為了讓這個並非天方夜譚的夢想成真,一套專為支援高負載工作負載而優化的伺服器架構絕對不可或缺。AMD EPYC 處理器——目前已邁入 9004 產品系列的第四代——旨在透過單一CPU充分發揮伺服器硬體與軟體的最佳效能。事實上,第四代AMD EPYC™ 具備以下優勢:
- 在插槽和單核心效能方面處於領導地位,採用5奈米核心運算晶片(CCD)設計,最高可達96顆Zen 4核心
- 在記憶體頻寬與容量方面處於領先地位,每個插槽配備 12 個通道,最高可支援 6TB 的DDR5
- 在 I/O 領域處於領先地位,提供多達 128 條PCIe .0 通道,可連接CXL 裝置、SSD、NIC、GPU 等設備
AMD EPYC 伺服器從頭開始設計,旨在實現極致的效能、效率與永續性,能夠妥善平衡各項資源,充分發揮 CPU、記憶體、GPU、儲存裝置及網路介面的最大潛力。事實上AMD EPYC 執行緒,使 L3 快取能專供高負載工作負載獨佔使用,從而避免PCIe 受到典型 I/O 排程與競用延遲的影響。
檔案系統支援與瓶頸規避
在分散式與平行模式下,分散式檔案系統會從多個來源接收資料,這些資料需要透過各種協定並針對不同應用程式進行大規模處理。在典型的儲存系統中,元資料很快就會成為瓶頸。事實上,系統能處理的資料量,取決於元資料所能支援的程度。隨著資料量的增加,處理元資料的能力也必須成比例地擴展。Supermicro AMD 支援WEKA 分散式儲存: 其架構設計正是為了實現這種比例擴展。這解釋了為何即使在Supermicro 增加更多儲存容量與服務,I/O 效能仍能持續保持不減。從八個節點(WEKA 叢集的最小節點數)到數百個節點,效能皆能線性擴展。其運作原理在於消除瓶頸,並支援即使是最繁重且要求極高的AI(及其他類似)工作負載。
然而,優化伺服器和叢集不僅僅是提供可擴展、高效能且低延遲的儲存方案。在設計整個系統時,不能僅將焦點放在任何單一特性或功能上。整個架構必須協同運作,才能支援目標工作負載。因此,為AI 設計系統,意味著要從頭開始打造一個執行環境,以快速且令人滿意的方式處理資料密集型應用程式。 這需要仰賴伺服器推論 方面的全面性能,以及整體 I/O 能力。伺服器在處理AI 或類似)工作負載時對資料的處理方式,與任何特定節點的資料進出流量同樣重要。支援高度並行化的運作至關重要,因此擁有高核心數以處理所有涉及此類程式執行之並行子任務,是關鍵所在。
另一項關鍵特點在於EPYC AMD EPYC伺服器所具備的PCIe .0 通道數量(單插槽最高可達 128 條)。這使伺服器能夠支援更多 SSD、網路卡、GPU,甚至擴充記憶體CXL 。這些元件在處理高負載的AI ML(或類似)工作負載時皆扮演著至關重要的角色,包括:
- 最多可支援 32 顆PCIe SSD,提供高速本地儲存空間
- 大量高速網路介面用於連接伺服器與其他節點(例如儲存裝置或其他專用伺服器),以擴展資料範圍與覆蓋範圍。
- 大量用於處理特定目標任務或工作負載的GPU
總體而言,伺服器節點必須具備充足的儲存空間與高網路頻寬,才能為每個節點提供適當的資料輸入與輸出能力,特別是當資料來源並非位於主機上的儲存裝置時。這正是本文中多數關於Supermicro AMD EPYC 高吞吐量與低延遲的論述背後的核心原理。
更多核心意味著更強勁的「爆發力」!
優化AI 另一關鍵因素在於,每顆CPU 擁有高核心數CPU 所謂的 UP(單一處理器)CPU 硬體層級的支援。AMD在核心數方面的領先地位(例如AMD EPYC 系列支援 24 至 96 個核心),帶來了眾多必要的功能與優勢。 最重要的是,此類 CPU 能為所有核心提供統一的記憶體存取機制。此特性有助於確保確定性、減少阻塞,並使伺服器主機板的設計與製造更易於實現高效能。AMD EPYC 透過其設計,可提升AI 效能,並提供最佳化的網路、儲存及 GPU 存取能力。
實例:Supermicro H13 百兆級儲存系統
Supermicro H13 儲存系統完美展現了EPYC 強大效能。它為軟體定義儲存、記憶體內運算、資料密集型HPC、私有雲與公有雲,以及AI 應用提供高密度解決方案。其規格包含以下細節:
- 16 個熱插拔EDSFF .SNVMe ,可在 1U 機箱內提供高達 480TB 的儲存空間
- 可選配 4 個CXL .S 2T 規格的記憶體擴充模組,以及 8 個 E3.SNVMe 裝置
- 一顆第四代AMD EPYC™ ——最高可達 96 核心
- 24 個 DIMM 插槽,最高可支援 6TBDDR5
- 2 個符合PCIe .0 Open Compute Project (OCP) 3.0 SFF 標準的AIOM
- 2 個全高半長PCIe .0 插槽,附輔助電源
- 鈦級效率電源供應器
對於任何需要為AI、機器學習或其他運算與資料密集型工作負載提供高效能、低延遲儲存存取(且需大量容量)的資料中心而言,Supermicro H13 無疑是一項極具價值的補充。
為何AMD Supermicro 架構最適合用於AI
NVMe 徹底NVMe 伺服器與叢集的遊戲規則。以NVMe 基礎,得以實現完全重新設計的架構。它使儲存裝置能夠與高效能的 CPU、GPU 和 NIC 並肩運作,在規模與速度上相得益彰,特別是在採用EDSFF 更是如此。 單插槽設計使頂級 CPU 能充分調用網路卡與儲存裝置的效能,並為HPC、AI 及其他次世代解決方案發揮最高程度的並行處理與叢集能力。在平衡效能與功耗以支持永續發展的同時,記憶體頻寬從AMD EPYC 代提升至第四代時翻倍,這也更能支援AI 。 在單晶片架構下,您可以優先將其他CPU (例如 L3 快取和記憶體頻寬)分配給高需求執行緒,以提升效能並降低延遲。您甚至可以深入至硬體層級來調校執行緒,以支援此類工作負載。要將AI ML 投入實際運作,沒有比這類伺服器更優異、更快速或更有效率的方式了。