Supermicro AMD 如何為AI 提供高吞吐量與低延遲
當代企業正經歷一場全面轉型,其核心可稱為「AI 」。當組織運用AI應用程式時,便能獲得競爭優勢與關鍵洞察。 此類工作負載的領先範例包括:以ChatGPT、LLaMa等為AI語言模型(LLMs);基於龐大訓練資料集的機器學習模型;複雜的3D模型、動畫與虛擬實境技術;各類模擬系統;以及其他高度依賴數據與運算能力的應用程式。
在任何AI GPU驅動核心後方,那些炫目的機架式硬體背後,還必須配備高吞吐量、低延遲的儲存系統,才能維持叢集的高效能運作。這些系統支撐著輸送海量資料的管道,用於訓練模型並執行複雜的模擬與分析,以支援AI、機器學習及相關工作負載。 事實上,企業欲把握AI 發展契機時,所面臨的最大挑戰之一AI 尋找能避免成為高效能CPU、GPU或資料庫叢集瓶頸的儲存解決方案。
聖杯:高吞吐量,低延遲
人人都在追逐AI ,尋求相應的工作負載支援。 要實現這個並非天方夜譚的夢想,具備支援高負載工作負載的優化伺服器架構至關重要。AMD EPYC 處理器——現AMD 邁入第四代的9004產品系列——能透過CPU充分釋放伺服器硬體與軟體的極致效能。事實上,AMD 系列具備以下優勢:
- 在插槽和單核心效能方面處於領導地位,採用5奈米核心運算晶片(CCD)設計,最高可達96顆Zen 4核心
- 在記憶體頻寬與容量方面處於領導地位,每插槽配備12個通道,最高可支援6TB DDR5記憶體
- IO領域的領導地位,提供高達128條PCIe 5.0通道,適用於CXL記憶體裝置、固態硬碟、網路介面卡、圖形處理器等設備
AMD EPYC伺服器從零開始設計,旨在實現極致效能、效率與永續性,能精準調控 CPU、記憶體、GPU、儲存裝置及網路介面間的平衡運作,充分釋放各元件潛能。EPYC 優先EPYC 執行緒,使 L3 快取能鎖定於高負載工作負載專屬使用,從而避免 PCIe 通道受制於傳統 I/O 排程與爭用延遲。
檔案系統支援與瓶頸規避
在分散式與平行運算模式下,分散式檔案系統會接收來自多源的數據,這些數據需透過多種協定、為不同應用程式進行大規模處理。在典型儲存系統中,元數據很快會成為瓶頸——系統能處理的數據量,終究取決於元數據的承載能力。隨著數據量擴增,元數據處理能力必須同步擴展。Supermicro AMD 支援WEKA分散式儲存: 其架構專為實現此類比例擴展而設計。這解釋了為何即使Supermicro 或叢集增加更多儲存容量與服務後,I/O效能仍能持續穩定運作。效能從八個節點(WEKA叢集的最小節點數)到數百個節點皆能線性擴展,其關鍵在於消除瓶頸,並能支援最繁重、要求最高的AI(及其他類似)工作負載。
然而,伺服器與叢集的優化不僅在於提供可擴展、高效能、低延遲的儲存方案。在設計整體系統時,絕不能僅聚焦於單一特性或功能。整個架構必須協同運作,方能支援特定工作負載。因此,為AI 設計系統,意味著要從零打造執行環境,以快速且完善地處理資料密集型應用。 這需要伺服器在推理分析與整體I/O能力方面具備全方位效能。伺服器在AI 或類似)工作負載時對數據的處理方式,與數據在各節點間的傳輸流量同等重要。支援高度並行作業至關重要,因此具備高核心數量的處理器才能有效執行涉及此類程式的所有並行子任務。
另一項關鍵特性在於EPYC AMD EPYC伺服器所支援的 PCIe 5.0 通道數量(單插槽最高可達 128 條)。此設計使伺服器能容納更大規模的 SSD、網路介面卡、GPU,甚至擴充記憶體 CXL 裝置。這些元件在處理高強度AI 機器學習(或類似)工作負載時皆扮演關鍵角色,包括:
- 最多可支援32組PCIe Gen5 SSD,實現高速本地儲存
- 大量高速網路介面用於連接伺服器與其他節點(例如儲存裝置或其他專用伺服器),以擴展資料範圍與覆蓋範圍。
- 大量用於處理特定目標任務或工作負載的GPU
總體而言,為確保各伺服器節點能從非本機儲存裝置獲得適當水準的資料輸入與輸出,具備充足的儲存空間與高網路頻寬至關重要。這正是Supermicro AMD EPYC 在高吞吐量與低延遲方面多數論述的核心依據。
更多核心意味著更強勁的「爆發力」!
優化AI 另一關鍵因素在於CPU 的高核心數CPU 為所謂的UP(單處理器)CPU 硬體層級支援。AMD核心數領域AMD領導地位(AMD EPYC 系列支援24至96核心)賦予了諸多必要的能力與優勢。 最關鍵的是,此類處理器能為所有核心提供統一記憶體存取。此特性有助於提升確定性、減少阻塞現象,並使伺服器主機板在追求高效能時更易於設計與建構。EPYC 優化網路、儲存及GPU存取功能,在設計層面即強化了AI 效能表現。
實例:Supermicro 1U 拍級儲存系統
Supermicro H13 拍級儲存系統完美展現了EPYC 卓越性能。該系統為軟體定義儲存、記憶體內運算、數據密集型HPC、私有與公有雲AI提供超高密度解決方案。其規格包含以下細節:
- 16個熱插拔EDSFF E3.S NVMe插槽,可在1U機箱內提供高達480TB的儲存空間
- 可選配 4 個 CXL E3.S 2T 規格記憶體擴充模組,外加 8 個 E3.S NVMe 儲存裝置
- 一顆第四代AMD 處理器——最高可達 96 個核心
- 24 個 DIMM 模組,最高可擴充至 6TB 的 DDR5 記憶體
- 2 個 PCIe 5.0 開放運算計畫 (OCP) 3.0 SFF 規範相容 AIOM 插槽
- 2個全高半長PCIe 5.0插槽,附輔助電源
- 鈦級效率電源供應器
Supermicro 系統可成為任何資料中心的無價之寶,尤其當該中心需AI、機器學習或其他運算密集型與資料密集型工作負載時,此系統能提供高效能、低延遲的儲存存取能力(且具備龐大容量)。
AMD Supermicro 架構最適合AI應用
NVMe 徹底改變了伺服器與叢集的遊戲規則。以 NVMe 為基礎,得以實現全面重構的架構。它使儲存裝置能與高效能 CPU、GPU 及 NIC 協同運作,在規模與速度上並駕齊驅,尤其搭配 EDSFF 規格時更顯卓越。 單插槽設計使頂尖CPU能充分飽和網路卡與儲存資源,為HPC、AI及其他次世代解決方案發揮極致的平行處理與叢集能力。在平衡效能與功耗以支持永續發展的同時,記憶體頻寬AMD EPYC 提升至第四代時翻倍增長,並更完善地支援AI 。 在單晶片架構下,您可優先將CPU (如L3快取與記憶體頻寬)分配給高需求執行緒,從而提升效能並降低延遲。您能深入至硬體層級調校執行緒以支援此類工作負載。要AI 機器學習發揮最大效能,沒有比這類伺服器更優異、更快速、更高效的解決方案。