跳至主要內容

什麼是雲端AI?

雲端AI

端人工智慧(AI)指的是利用雲端基礎架構進行開發、訓練、部署及管理AI 。它結合了可擴展的運算資源、高效能儲存、先進的網路技術以及調度系統,以支援跨雲端環境的資料密集型作業。

與主要針對中央處理器(CPU)型企業應用程式設計的傳統雲端運算模型不同,雲端AI 經過優化,可支援圖形處理器(GPU)加速、平行運算及大規模資料傳輸。這些架構能支援模型訓練、即時推論,以及在叢集式基礎架構上的持續資料處理

隨著AI 日益普及,雲端AI 專為效能、可擴展性及治理而設計的基礎架構層AI 能協助企業透過架構管控,將日益複雜的模型投入實際運作。

雲端AI 傳統雲端運算

雖然這兩種環境皆運行於雲端基礎架構之上,但雲端AI 架構需求,與傳統雲端運算部署存在顯著差異。這些差異在運算加速、儲存吞吐量、網路架構以及機架密度方面最為明顯。


 

傳統雲端

雲端AI

CPU的工作負載

GPU 加速的工作負載

標準儲存系統

高吞吐量分散式儲存系統

適中的網路頻寬

低延遲、高頻寬的網路架構

標準機架密度

高密度運算環境


 

傳統的雲端運算環境通常針對企業應用程式、虛擬化、交易型資料庫以及主要依賴 CPU 的網路服務進行了優化。這些工作負載需要可預測的效能和水平擴展能力,但並不要求進行大規模的平行運算,也不需要在節點之間進行持續的大量資料傳輸

雲端AI 高度並行化的模型訓練與推論工作負載。GPU 加速已成為基礎,可實現跨多節點叢集的張量運算與矩陣計算。儲存系統必須提供一致且高吞吐量的效能,以避免在分散式訓練過程中產生瓶頸。網路架構必須以最低延遲處理跨節點的大量東西向流量,以維持 GPU 之間的同步。 此外,受限於 GPU 的功耗、熱管理限制以及高速互連需求,機架密度亦隨之增加。

隨著人工智慧模型的規模與複雜度不斷增加,基礎設施必須超越傳統的雲端架構,以滿足雲端AI 在效能、可擴展性及密度方面的需求。

雲端AI 的核心組件

雲端基礎架構由緊密整合的各層級構成,共同支援大規模模型訓練、高效能推論及分散式資料處理。每層級都必須針對吞吐量、延遲、可擴展性及密度進行優化,以支撐現代AI 。

運算層

運算層是雲端AI 基礎。GPU 伺服器提供張量運算與大規模模型訓練所需的平行處理能力。AI 通常在每個節點部署多張 GPU,並透過高速互連架構相互連接,以支援分散式系統間的同步處理。

高核心數的 CPU 透過處理資料預處理、協調及系統層級的協作,來支援 GPU 加速。它們負責管理記憶體分配與運作控制功能,以維持叢集的穩定性。

大容量記憶體同樣至關重要。訓練工作負載需要大量記憶體來暫存資料集並緩衝中間運算結果,以避免 GPU 閒置。記憶體頻寬與容量會直接影響多節點環境中的效率。

儲存層

儲存層必須能在訓練叢集之間維持高吞吐量與平行存取能力。物件儲存平台負責管理大型資料集、模型檢查點及非結構化訓練資料,並能根據需求擴展至 petabyte 級別。

分散式儲存系統可實現跨多個節點的並行資料存取,從而降低訓練作業期間的延遲。高效能儲存層級(包括 SSD 陣列與非揮發性記憶體技術)能加速資料匯入,並在密集處理週期中將瓶頸降至最低。分層架構在維持吞吐量的同時,也能在效能與成本之間取得平衡。

網路層

由於分散式訓練會產生大量東西向流量,因此網路架構至關重要。脊葉拓撲結構能在節點之間提供穩定且低延遲的連線,並支援可擴展的叢集擴充。

高速互連技術可實現跨伺服器的 GPU 間通訊,並在平行運算過程中維持同步性。隨著叢集規模擴大,且內部資料交換量已超越南北向流量,高效的內部流量設計變得愈發重要。

管理層

管理層負責協調基礎架構資源並維持運作效率。編排平台可自動化處理跨分散式叢集的資源配置、擴展及工作負載配置。

遙測系統可提供 GPU 使用率、溫度狀態、網路活動及儲存效能的監控資訊,從而實現主動式優化。資源調度程式會動態分配運算與儲存容量,以維持均衡的使用率並減少資源爭用。

雲端AI 訓練

在雲端環境中AI 訓練仰賴於專為同時處理跨多個 GPU節點的龐大資料集而設計的分散式運算架構。在 GPU雲端基礎架構中,訓練工作負載會分配至叢集系統中,這些系統會持續同步模型權重與梯度,而非僅在單一伺服器上運作。這種分散式方法不僅能縮短訓練時間,同時也能支援AI 日益龐大且複雜的AI 模型。

平行處理是雲端AI 的核心。資料平行處理將資料集分散至各 GPU 上,而模型平行處理則將大型模型分割至多個裝置。這些技術仰賴低延遲網路與高吞吐量互連技術,以維持 GPU 雲端基礎架構內的同步效率。隨著模型規模擴大,通訊開銷已成為架構設計中至關重要的考量因素。

多節點 GPU 叢集需要仔細規劃機架層級的佈局。由於加速器集中部署,功率密度隨之增加,而資料局部性則成為減少儲存層與運算層之間不必要資料傳輸的關鍵。高效的訓練環境旨在將資料集置於運算資源附近,同時維持穩定的吞吐量。

基礎架構的設計直接決定了訓練效能。儲存頻寬、網路延遲或 GPU 利用率的瓶頸,都可能大幅延長訓練週期。雲端AI 必須在AI 將運算、儲存和網路層緊密整合,以支援可擴展且高效的模型開發。

雲端與邊緣環境中的AI

雲端環境中的AI ,著重於執行已訓練好的模型,以在即時或近即時狀態下產生預測、分類或決策。與訓練工作負載不同,推論更重視響應速度、穩定的延遲以及高效的資源利用率。雲端基礎架構能根據需求波動,實現推論服務的彈性擴展。

對於高吞吐量推論工作負載而言,GPU 加速依然至關重要,特別是針對大型語言模型、電腦視覺系統及即時分析平台。然而,當延遲與吞吐量需求處於中等水平時,某些推論任務仍CPU系統上運行。基礎設施的配置必須依據工作負載特性及服務等級目標來進行。

對延遲敏感的應用程式通常需要更接近終端使用者或資料來源的推論能力。混合部署將雲端AI 延伸至邊緣AI位置,在維持集中式協調與管理的同时,減少往返延遲。這種分散式架構支援需要快速決策的使用情境,包括零售環境(例如零售智慧商店系統),同時仍能保持可擴展性。 

高效的推論環境需在運算密度、記憶體分配與網路效能之間取得平衡,以維持可預測的回應時間。隨著推論需求不斷增長,基礎設施的彈性與高效的工作負載調度,對於維持服務連續性與營運效率至關重要。

公有雲與私有雲AI

部署雲端AI 的組織AI 判斷,其工作負載最適合部署於公有雲環境、私有基礎架構,還是混合雲架構。這種區別將影響控制權、效能隔離、成本結構以及架構的靈活性。


 

公有雲AI

私有雲AI

由服務提供者管理

企業控制

共用基礎設施

專用 GPU 基礎架構

訂閱制成本模式

混合型或資本基礎成本模型

快速配置

客製化最佳化的環境

共同負責的安全模型

企業定義的安全架構


公有雲 AI 供應商管理,並運行於共享基礎架構之上。這些環境無需資本投資,即可實現快速配置與彈性擴展。安全性遵循「共同責任」模式,其中供應商負責保障底層基礎架構的安全,而客戶則負責管理資料、存取控制及工作負載配置。

私有雲 AI 由企業自行掌控,並建構於專用的 GPU 基礎架構之上。組織可自行定義安全架構、區隔政策及合規控制措施。此模式雖能確保效能可預測性、硬體客製化及治理一致性,但需投入較高的資本支出並加強營運監督。

許多企業採用混合策略,利用公有雲資源來確保彈性,並運用私有基礎架構來處理持續且高密集度的作業負載。部署決策通常會根據效能目標、法規要求、安全態勢偏好以及總持有成本來進行評估。

高密度與散熱考量

由於集中部署的 GPU 及高效能互連技術,雲端AI 電力與散熱提出了極高的需求。資料中心的設計與建置必須著重於持續的效能、可靠性以及長期的可擴展性。

GPU 功耗

用於AI 推論的現代 GPU,其功耗遠高於傳統CPU 伺服器。單一加速器即可消耗數百瓦的電力,而單一機箱內的多 GPU 配置更會大幅增加系統總功耗。因此,供電系統必須經過精心設計,才能在不出現不穩定情況的前提下,承受持續的高負載。

機架功率密度

隨著每台伺服器的 GPU 數量增加,機架級的功率密度也隨之上升。AI 功率密度往往超過傳統企業的閾值,因此需要更強大的配電單元、更高容量的電路,以及仔細的負載平衡。基礎設施規劃必須預留未來擴充的空間,以避免耗資巨大的改裝工程。

熱限制

高密度 GPU 環境會產生集中熱量,若未妥善管理,將可能影響效能及硬體使用壽命。當機架密度提高時,僅靠空氣冷卻可能已不足以應對。熱設計必須確保氣流穩定、散熱高效,並進行環境監控,以維持運作穩定性。

直接液冷

直接液冷(DLC)已成為管理AI 極端熱負載的實用解決方案。由於其傳熱效率高於空氣冷卻,DLC 不僅能支援更高的機架密度,同時還能降低對大規模氣流的依賴。此方法不僅能實現更緊湊的部署,還能提升熱管理預測的準確性。

能源效率

由於雲端AI 利用率持續居高不下,能源效率成為關鍵考量因素。優化的電力分配、高效的冷卻系統,以及專為實現高瓦特效能而設計的硬體,皆有助於降低營運成本並提升永續性。基礎架構的設計將直接影響大規模運作時的整體能源消耗。

網路連線與資料傳輸的挑戰

一般而言AI 運算仰賴緊密耦合、高效能的網路架構;若資料傳輸效率低下,將導致 GPU 利用率降低、延長訓練週期,並限制分散式系統的水平擴展能力。

  • 將大型資料集從分散式儲存裝置傳輸至 GPU 叢集,需要持續的高頻寬連線,其需求往往超出傳統企業網路設計的預設值,以避免在預處理和訓練過程中出現輸入/輸出瓶頸。
  • 東西向流量AI 佔據主導地位,因為梯度交換、參數同步和檢查點複製會在多 GPU 叢集之間產生持續的節點間通訊。
  • 儲存網路必須能在高效能層級間處理並行讀寫作業,同時在面對多個訓練工作同時存取的情況下,仍能維持穩定的吞吐量。
  • 低延遲通訊架構對於集體通訊運作至關重要,因為在數千個同步週期中,微秒級的延遲會累積,進而降低擴展效率。
  • 網路超額訂閱率、拓撲設計以及擁塞管理政策,會直接影響叢集效能,特別是在支援快速水平擴展的脊葉架構中。
  • 遠端直接記憶體存取(RDMA)與高速互連協定,能降低CPU ,並提升大型分散式訓練環境中 GPU 間的通訊效率。

雲端AI的安全與治理

AI 運算環境必須整合企業級的網路安全管控措施與治理框架,以保護敏感資料、維護模型完整性,並確保分散式基礎設施符合法規要求。

  • 資料保護需要對靜止資料和傳輸中資料進行加密、實施安全的金鑰管理,並對資料集存取進行嚴格管控,以防止訓練資料或推論資料遭到未經授權的洩露。
  • 存取控制機制必須在運算叢集、AI 儲存系統及調度平台中,實施基於角色且由政策驅動的權限設定,以限制管理員與使用者的權限。
  • 模型治理涵蓋版本控制、訓練資料集的可稽核性、模型變更的可追溯性,以及在生產環境中監控模型漂移或非預期行為。
  • 合規要求因產業和地區而異,因此基礎設施設計必須支援資料駐留控制、記錄、稽核追蹤及保存政策。
  • 在多租戶環境中,隔離機制需要透過工作負載分段、網路分區以及硬體層級的資源分配,以防止跨租戶干擾或資料外洩。

擴展雲端AI

AI 擴展AI ,需要一套能協調運算、儲存、網路及供電系統擴展的基礎架構,以確保在工作負載需求增加時,系統性能仍能保持穩定。

  • 模組化伺服器擴充功能可逐步新增配備 GPU 的節點,讓企業能在不影響現有叢集運作的情況下,擴展運算能力。
  • 機架級整合透過預先驗證的配置,將運算、網路和儲存資源進行整合,以在更高密度下提供可預測的效能並簡化部署流程。
  • 叢集擴展規劃必須考量互連頻寬、交換容量、儲存吞吐量以及調度限制,以避免隨著節點數量增加而產生瓶頸,特別是在大型部署情境中,例如AI
  • 供電策略必須預見機架層級密度不斷提升的趨勢,確保具備充足的電路容量、冗餘的配電路徑,並與先進的冷卻系統相容。

結論

企業級AI代表了雲端運算的演進,旨在支援大規模的人工智慧工作負載。與主要為CPU應用程式設計的傳統環境不同,雲端AI 是以 GPU加速、分散式儲存系統以及低延遲網路架構為核心建構而成,這些技術能實現大規模的平行處理。

AI 有效AI 企業級AI ,必須在運算密度、資料傳輸、供電及散熱系統之間建立協調一致的架構。隨著模型規模與複雜度不斷增加,基礎設施的決策將直接影響訓練效率、推論效能以及長期擴展性。

那些能建構具備高密度整合、最佳化網路架構及結構化治理框架的雲端AI 組織,將更能支持持續創新,同時維持營運掌控力與可預測的成長。


 

常見問題

  1. GPU 雲端基礎架構有何用途?
    GPU 雲端基礎架構適用需要大規模平行處理的運算密集型工作負載,包括大型語言模型訓練、即時推論、科學建模及進階分析。它能實現高密度加速器部署,並具備最佳化的網路與儲存效能。
  2. 哪些類型的企業應採用私有雲AI?
    私有雲 AI 通常AI 受監管行業的企業、有嚴格資料駐留要求的組織,或運行持續高利用率AI 企業所AI 。它能確保效能可預測性、提供治理控制,並實現長期基礎架構成本優化。
  3. AI AI AI 敏感資料是否安全?
    AI 建構於加密儲存、安全的網路分段、基於身分的存取控制以及持續監控之上,即可妥善處理敏感資料。其安全性取決於基礎架構設計、合規性對齊,以及嚴謹的營運治理。