跳至主要內容

Supermicro與NVIDIA提供適用於AI、ML及更多應用的最佳化系統

充分利用進階資料存取與傳輸技術以提升生產力

現代企業透過在業務與營運中運用先進應用程式與數據處理技術,正獲得顯著的競爭優勢。這些技術AI的大型語言模型(如ChatGPT、LLaMa等)、基於海量訓練數據與真實數據的機器學習分析、複雜的3D與有限元素模型及模擬,以及其他數據密集型與運算密集型應用程式。

所有這類工作負載至少有這一點是共通的:無論您採用何種分層模型,只要能加速存取儲存資源,它們都能獲得顯著的效益。 這正是眾多企業與服務供應商轉向採用 GPU 伺服器來處理龐大且複雜的資料集,以及消耗這些資料集的工作負載的主要原因之一。相較於採用較典型儲存配置(例如本地 RAM 和NVMe ,並在區域網路或雲端中配置額外的儲存層級)的傳統伺服器,GPU 伺服器不僅具備更強大的處理能力,更能以更快的速度完成這類任務。

提升吞吐量的關鍵在於降低延遲與增強儲存頻寬。這些優勢能直接轉化為生產力與效能的提升,主要透過依賴直接及遠端記憶體存取的智慧輸入輸出與網路技術實現,其原理將於下文詳述。更快的模型訓練與任務完成速度,意味著AI應用程式能加速部署、高效執行任務,從而縮短價值實現週期。

直接記憶體存取與遠端等效裝置

直接記憶體存取(又稱DMA)自計算機早期便被用於加速輸入輸出作業。其核心原理是透過匯流排(或其他介面)實現裝置間的記憶體對記憶體傳輸。 其運作原理是將特定範圍的記憶體位址直接從發送方記憶體複製至接收方記憶體(雙向傳輸時則在兩端間進行複製)。此CPU 複製流程,透過減少複製操作次數來加速傳輸(CPU 先將發送方資料複製至自身記憶體,再從該記憶體複製至接收方記憶體)。

事實上,單一系統上的 DMA 效能僅受限於連接資料傳輸中發送與接收裝置之間之匯流排(或其他介面)的速度。對於PCIe .0 而言,其速度為 16 吉傳輸/秒(GT/s),而PCIe .0 則為其兩倍(32 GT/s)。 雖然實際資料傳輸速率會因編碼與封裝的開銷而稍低,但PCIe 額定頻寬分別為 64 Gbps(4.0)與 128 Gbps(5.0)。這速度真快!

遠端直接記憶體存取(RDMA)將單一電腦內直接記憶體存取的功能延伸至透過網路連接的兩台裝置之間。RDMA通常基於獨特的應用程式介面(API),配合專用網路硬體與軟體運作,在底層網路技術允許的範圍內,盡可能提供與本地直接記憶體存取相同的優勢。

NVIDIA 圖形處理器支援三種此類網路技術,依速度與成本遞減順序排列(最快、最昂貴者列於首位):

  • NVIDIA NVLink 採用最高速的專有介面與交換技術,透過高速網路加速 GPU 之間的資料傳輸。目前在標準 MLPerf Training v3.0 基準測試中,其效能表現為所有技術中最高。單顆 NVIDIA H100 Tensor Core GPU 最多可支援 18 條 NVLink 連接,傳輸速率最高可達 900 Gbps(相當於PCIe .0 有效速度的 7 倍)。
  • InfiniBand 由InfiniBand 協會(IBTA)所監管的高速網路標準,廣泛應用於高效能網路中。截至2020 年,其測得的最高資料傳輸速率約為 1.2 Tbps(約 154 GBps)。
  • 乙太網路是一種標準的網路技術,包含多種變體,例如較少使用的太位元乙太網路(TbE,約125 GBps)以及更常見的400 GbE(50 GBps)。其優勢在於成本較低、部署廣泛,且在眾多資料中心中屬於成熟技術。

將NVIDIA GPU投入Supermicro伺服器運作

NVIDIA RDMA 技術可支援透過前述三種網路技術進行基於 GPU 的資料存取。每種技術皆提供不同的性價比取捨,成本越高意味著速度越快、延遲越低。 企業可依據預算與需求選擇最適合的底層連接類型,理解每種選項代表特定的價格與效能組合,並能據此建立可靠的運作基礎。當各類AI或機器學習(及其他數據密集型與運算密集型應用)的程式在伺服器上運行時,可充分利用GPU儲存的分層架構,其中包含以下層級(依效能由高至低排序,容量與儲存空間則由低至高):

  • 第一層級:GPU記憶體是速度最快、價格最高昂且容量最小的資料儲存裝置(例如Tensor H100 GPU配備188GB HBM3記憶體)
  • 第二層級:連接至PCIe 本地 SSD 速度僅次於第一層級,價格仍屬高昂,且容量為高階 GPU 的 10 至 100 倍
  • 第三層級:區域網路上的遠端儲存伺服器,其支援容量可達存取它們的GPU的千倍以上

由於AI 機器學習(ML)應用程式同時需要低延遲與高頻寬,RDMA 有助於將 DMA 的本地優勢延伸至網路資源(視所涉及的底層連線而定)。此功能可透過跨裝置的記憶體對記憶體傳輸(一端為 GPU,另一端為儲存裝置),實現對外部資料的快速存取。 透過與 NVLink、InfiniBand 或某些高速乙太網路變體協同運作,遠端適配器可將遠端系統中的記憶體資料傳輸至某個本地 GPU 的記憶體中。NVIDIA Magnum IO為資料中心提供了一套 I/O 加速平台,以支援平行、智慧型的資料中心 I/O,從而最大化儲存、網路以及多節點、多 GPU 通訊效能,滿足對這些資源需求嚴苛的應用。

在Supermicro 的 GPU 伺服器系統中,Supermicro NVIDIA GPU 及其支援的存取方式。這些方式包括本地 DMA、透過 API 實現的 RDMA,以及透過支援這三種連接類型的多張網路介面卡(NIC)和交換器所提供的高效能網路連線。此外,Supermicro 伺服器還配備一至兩顆稱為資料處理單元(DPU)的專用 ASIC,用以支援 GPU 所能提供的加速 I/O 處理。這些裝置可將額外的 I/O 負載從伺服器 CPU 上卸載。 同樣地,此類伺服器每台最多可支援八個網路介面卡,以實現對網路頻寬的持續且擴展的存取,從而最大化PCIe .0 裝置與 RDMA 裝置之間的資料傳輸。這確保即使在PCIe 也不會出現瓶頸,並有助於最大化吞吐量並將延遲降至最低。

效能方面的影響極為積極。採用NVIDIA加速I/O技術所帶來的效能提升幅度,從最低20%至30%,在密集型工作負載下最高可達兩倍。同時,為避免效能低落,應用程式設計時必須充分利用儲存資源。因此,此類應用程式應配置為定期執行檢查點。 否則當節點脫離網路或遭阻斷時,應用程式將被迫從初始狀態重新啟動。採用檢查點機制意味著,即使發生節點故障或其他阻斷事件,進度僅會回溯至最近的快照狀態(此類功能可能透過本地與網路資料保護工具實現,實際上未必需要在應用程式中專門建構)。

總體而言,採用基於DPU和GPU的伺服器AI、機器學習及其他高需求工作負載(例如3D或有限元素模型、模擬等)的真正優勢在於,能實現基礎架構元件與應用程式活動的分離。此舉可節省目前耗費於基礎架構存取與管理的20%至30%CPU 透過將I/O功能整合至硬體層面,既釋放資源又加速存取效能。