Supermicro AMD 如何為AI 提供高吞吐量與低延遲

AI 低延遲儲存方案：立即選用搭載AMD EPYC™ Supermicro

當代企業正經歷一場全面轉型，其核心可稱為「AI 」。當組織運用AI應用程式時，便能獲得競爭優勢與關鍵洞察。此類工作負載的領先範例包括：以ChatGPT、LLaMa等為AI語言模型（LLMs）；基於龐大訓練資料集的機器學習模型；複雜的3D模型、動畫與虛擬實境技術；各類模擬系統；以及其他高度依賴數據與運算能力的應用程式。

在任何AI GPU驅動核心後方，那些炫目的機架式硬體背後，還必須配備高吞吐量、低延遲的儲存系統，才能維持叢集的高效能運作。這些系統支撐著輸送海量資料的管道，用於訓練模型並執行複雜的模擬與分析，以支援AI、機器學習及相關工作負載。事實上，企業欲把握AI 發展契機時，所面臨的最大挑戰之一AI 尋找能避免成為高效能CPU、GPU或資料庫叢集瓶頸的儲存解決方案。

聖杯：高吞吐量，低延遲

人人都爭相加入AI ，並尋求相應的工作負載支援。為了讓這個並非天方夜譚的夢想成真，一套專為支援高負載工作負載而優化的伺服器架構絕對不可或缺。AMD EPYC 處理器——目前已邁入 9004 產品系列的第四代——旨在透過單一CPU充分發揮伺服器硬體與軟體的最佳效能。事實上，第四代AMD EPYC™ 具備以下優勢：

在插槽和單核心效能方面處於領導地位，採用5奈米核心運算晶片（CCD）設計，最高可達96顆Zen 4核心
在記憶體頻寬與容量方面處於領先地位，每個插槽配備 12 個通道，最高可支援 6TB 的DDR5
在 I/O 領域處於領先地位，提供多達 128 條PCIe .0 通道，可連接CXL 裝置、SSD、NIC、GPU 等設備

AMD EPYC 伺服器從頭開始設計，旨在實現極致的效能、效率與永續性，能夠妥善平衡各項資源，充分發揮 CPU、記憶體、GPU、儲存裝置及網路介面的最大潛力。事實上AMD EPYC 執行緒，使 L3 快取能專供高負載工作負載獨佔使用，從而避免PCIe 受到典型 I/O 排程與競用延遲的影響。

檔案系統支援與瓶頸規避

在分散式與平行模式下，分散式檔案系統會從多個來源接收資料，這些資料需要透過各種協定並針對不同應用程式進行大規模處理。在典型的儲存系統中，元資料很快就會成為瓶頸。事實上，系統能處理的資料量，取決於元資料所能支援的程度。隨著資料量的增加，處理元資料的能力也必須成比例地擴展。Supermicro AMD 支援WEKA 分散式儲存：其架構設計正是為了實現這種比例擴展。這解釋了為何即使在Supermicro 增加更多儲存容量與服務，I/O 效能仍能持續保持不減。從八個節點（WEKA 叢集的最小節點數）到數百個節點，效能皆能線性擴展。其運作原理在於消除瓶頸，並支援即使是最繁重且要求極高的AI（及其他類似）工作負載。

然而，優化伺服器和叢集不僅僅是提供可擴展、高效能且低延遲的儲存方案。在設計整個系統時，不能僅將焦點放在任何單一特性或功能上。整個架構必須協同運作，才能支援目標工作負載。因此，為AI 設計系統，意味著要從頭開始打造一個執行環境，以快速且令人滿意的方式處理資料密集型應用程式。這需要仰賴伺服器推論方面的全面性能，以及整體 I/O 能力。伺服器在處理AI 或類似）工作負載時對資料的處理方式，與任何特定節點的資料進出流量同樣重要。支援高度並行化的運作至關重要，因此擁有高核心數以處理所有涉及此類程式執行之並行子任務，是關鍵所在。

另一項關鍵特點在於EPYC AMD EPYC伺服器所具備的PCIe .0 通道數量（單插槽最高可達 128 條）。這使伺服器能夠支援更多 SSD、網路卡、GPU，甚至擴充記憶體CXL 。這些元件在處理高負載的AI ML（或類似）工作負載時皆扮演著至關重要的角色，包括：

最多可支援 32 顆PCIe SSD，提供高速本地儲存空間
大量高速網路介面用於連接伺服器與其他節點（例如儲存裝置或其他專用伺服器），以擴展資料範圍與覆蓋範圍。
大量用於處理特定目標任務或工作負載的GPU

總體而言，伺服器節點必須具備充足的儲存空間與高網路頻寬，才能為每個節點提供適當的資料輸入與輸出能力，特別是當資料來源並非位於主機上的儲存裝置時。這正是本文中多數關於Supermicro AMD EPYC 高吞吐量與低延遲的論述背後的核心原理。

實例：Supermicro H13 百兆級儲存系統

Supermicro H13 儲存系統完美展現了EPYC 強大效能。它為軟體定義儲存、記憶體內運算、資料密集型HPC、私有雲與公有雲，以及AI 應用提供高密度解決方案。其規格包含以下細節：

16 個熱插拔EDSFF .SNVMe ，可在 1U 機箱內提供高達 480TB 的儲存空間
可選配 4 個CXL .S 2T 規格的記憶體擴充模組，以及 8 個 E3.SNVMe 裝置
一顆第四代AMD EPYC™ ——最高可達 96 核心
24 個 DIMM 插槽，最高可支援 6TBDDR5
2 個符合PCIe .0 Open Compute Project (OCP) 3.0 SFF 標準的AIOM
2 個全高半長PCIe .0 插槽，附輔助電源
鈦級效率電源供應器

對於任何需要為AI、機器學習或其他運算與資料密集型工作負載提供高效能、低延遲儲存存取（且需大量容量）的資料中心而言，Supermicro H13 無疑是一項極具價值的補充。

為何AMD Supermicro 架構最適合用於AI

NVMe 徹底NVMe 伺服器與叢集的遊戲規則。以NVMe 基礎，得以實現完全重新設計的架構。它使儲存裝置能夠與高效能的 CPU、GPU 和 NIC 並肩運作，在規模與速度上相得益彰，特別是在採用EDSFF 更是如此。單插槽設計使頂級 CPU 能充分調用網路卡與儲存裝置的效能，並為HPC、AI 及其他次世代解決方案發揮最高程度的並行處理與叢集能力。在平衡效能與功耗以支持永續發展的同時，記憶體頻寬從AMD EPYC 代提升至第四代時翻倍，這也更能支援AI 。在單晶片架構下，您可以優先將其他CPU （例如 L3 快取和記憶體頻寬）分配給高需求執行緒，以提升效能並降低延遲。您甚至可以深入至硬體層級來調校執行緒，以支援此類工作負載。要將AI ML 投入實際運作，沒有比這類伺服器更優異、更快速或更有效率的方式了。

人工智慧基礎架構

資料中心建構組件解決方案（Data Center Building Block Solutions®，DCBBS）

AI工廠

邊緣AI

AI儲存

AI

NVIDIA解決方案

AMD解決方案

Intel解決方案

機架式伺服器

1U雙處理器

2U雙處理器

單一處理器

多處理器

產品系列

GPU伺服器

8U/10U GPU系列

4U/5U GPU系列

2U GPU系列

1U GPU產品線

Twin伺服器

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Blade伺服器

SuperBlade®

MicroBlade®

MicroCloud

儲存伺服器

所有儲存系統

全快閃NVMe

頂部裝載式儲存

JBOF

Petascale Grace儲存

企業最佳化儲存系統

JBOD儲存機箱

主機板

伺服器主機板

工作站主機板

嵌入式 / IoT主機板

桌上型 / 電競主機板

主機板系列

全球SKU

機殼

1U機箱

2U機箱

3U機箱

4U / 塔式機箱

中型 / 迷你立式機型

嵌入式 / 物聯網機箱

移動式貨架 / 驅動套件

JBOD儲存機箱

全球SKU

SuperRack®

機架整合服務

配件裝置

各式電源線/連接線

Riser卡系列

儲存AOC系列

電源供應器系列

散熱器系列

系統風扇系列

移動式貨架 / 驅動套件

前機箱邊框

儲存、輸入/輸出、安全性

邊緣AI與物聯網系統

緊湊型邊緣系統

緊湊型邊緣伺服器

機架式邊緣伺服器

嵌入式元件

嵌入式主機板

嵌入式機箱

交換器

轉接器

SuperWorkstations

液冷式AI開發平台

單處理器

雙處理器