跳至主要內容

Supermicro NVIDIA 攜手推出針對AI、機器學習等領域的優化系統

充分利用進階資料存取與傳輸技術以提升生產力

現代企業透過在業務與營運中運用先進應用程式與數據處理技術,正獲得顯著的競爭優勢。這些技術AI的大型語言模型(如ChatGPT、LLaMa等)、基於海量訓練數據與真實數據的機器學習分析、複雜的3D與有限元素模型及模擬,以及其他數據密集型與運算密集型應用程式。

所有這類工作負載至少有這點是共通的:無論採用何種分層儲存模型,加速存取儲存資源都能為其帶來顯著效益。 這正是眾多企業與服務供應商轉向採用GPU伺服器處理龐大複雜資料集及相關運算任務的主因。相較於採用典型儲存架構(例如本地RAM與NVMe SSD,輔以區域網路或雲端儲存層級)的傳統伺服器,GPU伺服器不僅具備更強大的處理能力,更能大幅縮短任務完成時間。

提升吞吐量的關鍵在於降低延遲與增強儲存頻寬。這些優勢能直接轉化為生產力與效能的提升,主要透過依賴直接及遠端記憶體存取的智慧輸入輸出與網路技術實現,其原理將於下文詳述。更快的模型訓練與任務完成速度,意味著AI應用程式能加速部署、高效執行任務,從而縮短價值實現週期。

直接記憶體存取與遠端等效裝置

直接記憶體存取(又稱DMA)自計算機早期便被用於加速輸入輸出作業。其核心原理是透過匯流排(或其他介面)實現裝置間的記憶體對記憶體傳輸。 其運作原理是將特定範圍的記憶體位址直接從發送方記憶體複製至接收方記憶體(雙向傳輸時則在兩端間進行複製)。此CPU 複製流程,透過減少複製操作次數來加速傳輸(CPU 先將發送方資料複製至自身記憶體,再從該記憶體複製至接收方記憶體)。

事實上,單一系統中的DMA效能僅受限於連接資料傳輸中發送與接收裝置的匯流排(或其他介面)速度。對於PCIe 4.0而言,其速度為每秒16千兆傳輸次數(GT/s),而PCIe 5.0則為其兩倍(32 GT/s)。 由於編碼與封裝的開銷,實際傳輸速率自然較低,但這兩種 PCIe 版本的額定頻寬分別為 64 Gbps(4.0)與 128 Gbps(5.0)。這速度可真快!

遠端直接記憶體存取(RDMA)將單一電腦內直接記憶體存取的功能延伸至透過網路連接的兩台裝置之間。RDMA通常基於獨特的應用程式介面(API),配合專用網路硬體與軟體運作,在底層網路技術允許的範圍內,盡可能提供與本地直接記憶體存取相同的優勢。

NVIDIA 圖形處理器支援三種此類網路技術,依速度與成本遞減順序排列(最快、最昂貴者列於首位):

  • NVIDIA NVLink採用最高速的專屬介面與交換技術,在高速網路中加速GPU間的資料傳輸。目前在標準MLPerf Training v3.0基準測試中,其效能表現位居所有技術之冠。單顆NVIDIA H100 Tensor Core GPU最高可支援18組NVLink連接,傳輸速率達900 Gbps(相當於PCIe 5.0實效速度的7倍)。
  • InfiniBand是由InfiniBand貿易協會(IBTA)監管的高速網路標準,廣泛應用於高效能網路。截至2020年,其最高測量資料傳輸速率約為1.2兆位元組每秒(1.2 Tbps,約154 GBps)。
  • 乙太網路是一種標準的網路技術,包含多種變體,例如較少使用的太位元乙太網路(TbE,約125 GBps)以及更常見的400 GbE(50 GBps)。其優勢在於成本較低、部署廣泛,且在眾多資料中心中屬於成熟技術。

在Supermicro 運用 NVIDIA 圖形處理器

NVIDIA RDMA 技術可支援透過前述三種網路技術進行基於 GPU 的資料存取。每種技術皆提供不同的性價比取捨,成本越高意味著速度越快、延遲越低。 企業可依據預算與需求選擇最適合的底層連接類型,理解每種選項代表特定的價格與效能組合,並能據此建立可靠的運作基礎。當各類AI或機器學習(及其他數據密集型與運算密集型應用)的程式在伺服器上運行時,可充分利用GPU儲存的分層架構,其中包含以下層級(依效能由高至低排序,容量與儲存空間則由低至高):

  • 第一層級:GPU記憶體是速度最快、價格最高昂且容量最小的資料儲存裝置(例如Tensor H100 GPU配備188GB HBM3記憶體)
  • 第二層級:PCIe匯流排上的本地固態硬碟速度次之,價格仍高昂,容量約為高端顯示卡的10至100倍。
  • 第三層級:區域網路上的遠端儲存伺服器,其支援容量可達存取它們的GPU的千倍以上

由於AI 機器學習應用同時需要低延遲與高頻寬,RDMA技術能將DMA的本地優勢延伸至網路資源(取決於底層連線架構)。此功能透過跨裝置記憶體間傳輸(一端為GPU,另一端為儲存裝置),實現對外部資料的高速存取。 透過與NVLink、InfiniBand或某些高速乙太網路變體協作,遠端適配器能將資料從遠端系統記憶體傳輸至本地GPU記憶體。NVIDIA Magnum IO為資料中心提供輸入輸出加速平台支援平行化、智慧化的資料中心輸入輸出操作,從而最大化儲存、網路及多節點、多GPU通訊效能,滿足高要求應用場景的需求。

在Supermicro 的 GPU 伺服器系統中Supermicro NVIDIA GPU 及其支援的存取方式。這些方式包含本地 DMA、透過 API 實現的 RDMA,以及透過支援三種連接類型的多張網路介面卡與交換器實現的高效能網路。此外Supermicro 伺服器還配備一至兩顆稱為資料處理單元 (DPU) 的專用 ASIC,用以支援 GPU 所能提供的加速 I/O 功能。此設計可卸除伺服器 CPU 的額外 I/O 負載。 同理,此類伺服器每台最多可支援八張網路介面卡,以實現持續且擴展的網路頻寬存取,從而最大化PCIe 5.0裝置與RDMA裝置間的傳輸效能。此設計確保即使在PCIe匯流排上亦無瓶頸,有助於最大化吞吐量並最小化延遲。

效能方面的影響極為積極。採用NVIDIA加速I/O技術所帶來的效能提升幅度,從最低20%至30%,在密集型工作負載下最高可達兩倍。同時,為避免效能低落,應用程式設計時必須充分利用儲存資源。因此,此類應用程式應配置為定期執行檢查點。 否則當節點脫離網路或遭阻斷時,應用程式將被迫從初始狀態重新啟動。採用檢查點機制意味著,即使發生節點故障或其他阻斷事件,進度僅會回溯至最近的快照狀態(此類功能可能透過本地與網路資料保護工具實現,實際上未必需要在應用程式中專門建構)。

總體而言,採用基於DPU和GPU的伺服器AI、機器學習及其他高需求工作負載(例如3D或有限元素模型、模擬等)的真正優勢在於,能實現基礎架構元件與應用程式活動的分離。此舉可節省目前耗費於基礎架構存取與管理的20%至30%CPU 透過將I/O功能整合至硬體層面,既釋放資源又加速存取效能。